


引言 


我 们 首先 讨论 如 何 获取 和 安装 R, 并 给 出 启动 R 果 的 使 用 和 一 般 信息 
的 概述 。1. 6 节 我 们 讨论 编写 代码 的 文本 编辑 器 的 使 用 ,并 给 出 了 推荐 使 
用 的 一 般 工 作 模式 。1.7 节 的 重点 是 使 用 帮助 文件 和 新 闻 组 获得 帮助 。 安 
装 R 和 载 人 包 在 1.8 节 叙 述 ,历史 回顾 和 文献 介绍 放 在 1. 10 节 。 在 1.11 
节 , 我 们 提供 了 一 些 阅读 本 书 的 一 般 性 建议 以 及 教师 如 何 使 用 本 书 , 在 最 
后 一 节 , 我 们 总 结 了 本 章 介绍 的 R 函数 。 


1.1 什么 是 R? 


这 虽然 是 一 个 简单 的 问题 ,但 是 并 不 太 容易 回答 。 广 义 地 定义 ,R 是 
允许 用 户 编辑 算法 并 使 用 其 它 可 编程 工具 的 一 种 计算 机 语言 。 这 种 含糊 
的 描述 适用 于 许多 计算 机 语言 ,解释 R 能 做 什么 或 许 更 有 益 。 在 我 们 的 R 
课程 中 ,我 们 告诉 学 生 ,“R 可 以 做 你 想象 的 任何 事情 ”, 这 应 该 没有 言 过 其 
实 。 借 助 R 你 可 以 编写 函数 ,进行 计算 ,应 用 很 多 可 获得 的 统计 技术 ,生成 
简单 或 者 复杂 的 图 形 , 甚 至 编写 你 自己 的 库 函 数 。 许 多 研究 院 、 公 司 和 大 
学 已 经 使 用 R, 有 一 个 很 大 的 用 户 组 支持 R。 在 过 去 5 年 里 ,许多 包括 参考 
R 和 应 用 R 函数 进行 计算 的 图 书 相继 出 版 。 重 要 的 一 点 是 R 是 免费 使 用 的 。 

那么 为 什么 不 是 每 个 人 都 在 使 用 它 ? 这 是 一 个 容易 回答 的 问题 。R 
有 一 个 陡峭 的 学 习 曲 线 ! 它 的 使 用 需要 编程 ,并 且 尽 管 各 种 图 形 用 户 界面 
存在 ,但 是 没有 一 个 全 面 到 足以 完全 避免 编程 。 然 而 一 旦 你 掌握 了 R 的 基 
本 步骤 ,你 将 不 再 喜欢 使 用 其 它 相似 的 软件 包 。 
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R 中 的 编程 与 交互 方法 类 似 。 因 此 ,一 旦 你 学 会 了 使 用 ,例如 ,线性 回 
归 , 那 么 只 需要 修改 一 些 选项 或 者 在 公式 里 做 一 些 简单 的 改动 就 可 以 使 代 
码 适用 于 广义 线性 模型 或 者 广义 加 法 模型 。 另 外 ,R 具有 卓越 的 统计 工 
具 , 几 乎 你 需要 的 每 一 个 统计 术语 都 已 在 R 中 编程 并 且 可 以 使 用 (作为 主 
包 的 一 部 分 或 者 用 户 捐 献 包 )。 

现在 有 许多 讨论 R 与 统计 结合 的 书 (Dalgaard,2002; Crawley,2002， 
2005;Venables 和 Ripley,2002; 其 它 的 见 1. 10 节 R 图 书 的 全 部 清单 )。 本 
书 不 讨论 R 与 统计 的 结合 。 同 时 学 习 R 与 统计 意味 着 双重 学 习 曲 线 。 基 
于 我 们 的 经 验 ,这 不 是 很 多 人 能 做 到 的 事情 。 在 那些 我 们 一 起 讲授 R 与 统 
计 的 场合 ,我 们 发 现 多 数学 生 在 他 们 的 项 目 中 , 相 比 统计 角度 更 关心 R 代 
码 是 否 成 功 运行 。 因 此 本 书 提供 R 的 基本 用 法 而 不 涉及 统计 问题 。 然 而 ， 
如 果 你 希望 同时 学 习 R 和 统计 ,本 书 提供 的 R 基础 知识 将 有 助 于 掌握 程序 
中 可 以 利用 的 统计 工具 。 


1.2 下 载 和 安装 R 


现在 我 们 讨论 获取 和 安装 R。 如 果 你 的 电脑 上 已 经 安装 了 R, 可 以 跳 
过 这 节 。 
出 发 点 是 R 的 网 站 www. rproject org。 主 页 (图 1. 1) 展 示 了 几 幅 漂 
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图 1.1 R 网 站 的 主页 
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亮 的 图 形 作为 欣赏 ,但 是 重要 的 部 分 是 下 载 下 的 CRAN 连接 。 这 个 神秘 的 P.3 - 
符号 表示 全 面 的 R 文档 网 络 , 它 允许 你 选择 一 个 能 下 载 R 的 计算 机 网 络 。 
这 个 站 点 有 许多 其 它 相关 的 材料 ,但 是 ,此 时 我 们 只 讨论 如 何 得 到 R 的 安 
装 文件 并 把 它 保存 到 你 的 计算 机 上 
如 果 你 点 击 CRAN 链接 ,你 将 看 到 全 球 的 网 络 服务 器 列表 。 离 我 们 最 
近 的 服务 器 是 英格兰 的 布 里 斯 托 尔 。 选 择 布 里 斯 托 尔 服务 器 (或 其 它 任何 
一 个 ) 会 出 现 图 1. 2 所 示 的 网 页 。 点击 Linux, MacOS X 或 者 Windows 链 
接 出 现 窗 口 (图 1. 3) 允 许 我 们 选择 底层 (base) 安 装 文件 或 者 共享 (contrib) 
包 。 我 们 将 在 后 面 讨论 包 。 现 在 ,点 击 base 标签 的 链接 。 
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图 1.2 R 本 地 服务 器 的 页 面 。 点 击 Linux,MacOS X 或 者 Windows 的 链 
接 则 进入 图 1. 3 的 窗口 


点 击 base 出 现 窗口 (图 1.4) ,从 这 里 我 们 可 以 下 载 R。 选 择 安装 程序 
R-2. 7. 1-win32. exe 并 且 下 载 到 你 的 电脑 上 。 请 注意 ,该 文件 的 大 小 是 
25 一 30 Mb, 你 想 通 过 一 根 电话 线 下 载 也 没什么 问题 。R 的 新 版 本 将 有 不 
同 的 名 称 并 且 可 能 会 大 一 些 。 
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R for Windows 
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图 1.3 该 网 页 允许 选择 下 载 R 底层 或 者 捐献 包 
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图 1.4 你 可 以 在 该 窗口 下 载 安 装 文件 R-2.7. 1-win32. exe。 请 


注意 这 是 编写 本 书 时 的 最 新 版 本 ,你 有 可 能 会 看 到 更 新 
的 版 本 
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为 了 安装 R, 点 击 下 载 的 R-2. 7. 1-win32. exe 文件 。 最 简单 的 方法 是 
接受 所 有 的 默认 设置 。 请 注意 ,依赖 于 电脑 设置 ,会 存在 一 些 问题 ,比如 系 
统管 理 员 权限 .防火墙 ` VISTA 安全 设置 等 等 。 这 些 是 具体 电脑 或 者 网 络 
问题 ,这 里 不 进一步 讨论 。 当 成 功 地 安装 了 R, 你 将 有 一 个 蓝 色 的 桌面 
图 标 。 

如 果 要 升级 已 安装 的 R 程序 ,需要 重复 上 述 下 载 过 程 。 在 你 的 电脑 上 
同时 存在 多 个 R 的 版 本 是 没有 问题 的 ;它们 将 位 于 相同 的 R 目录 ,但 是 在 
不 同 的 子 目录 内 ,并 且 不 会 相互 影响 。 如 果 你 想 从 R 的 旧版 本 进行 升级 ， 
CHANGES 文件 是 值得 阅读 的 。( 在 CHANGES 文件 里 的 一 些 信息 可 能 看 
上 去 有 些 吓 人 ,初学 者 无 须 过 多 关注 7 


1.3 最初 印象 


现在 我 们 讨论 打开 一 个 R 程序 并 且 执 行 一 些 简单 的 任务 。R 的 启动 
依赖 于 它 是 如 何 安装 的 。 如 果 你 从 网 站 www. r-project. org 上 下 载 并 且 安 
装 在 一 台独 立 的 电脑 上 ,可 以 通过 双击 桌面 快捷 方式 的 图 标 或 者 通过 开 
始 -> 程 序 -> R(Start -> Program -> R) 进行 启动 。 在 有 预 装 版 本 的 网 络 计 
算 机 上 ,你 可 以 咨询 系统 管理 员 寻 找 R 的 快捷 方式 。 

程序 的 启动 窗口 如 图 1.5 所 示 , 这 是 一 切 程序 的 出 发 点 。 


Er 





图 1.5 R 的 启动 窗口 ,也 称 为 控制 台 或 者 命令 窗口 
从 图 1.5 可 以 立即 注意 到 以 下 几 点 。(1) 我 们 使 用 的 R 版 本 是 2.7.1; P.6 
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《2) 这 里 没有 华丽 的 图 形 用 户 界面 (GUD;(3) 它 是 自由 软件 ,不 带 任何 担 
保 ;(4) 这 里 有 一 个 帮助 菜单 ;(5) 符 号 ">” 和 光标 。 对 于 第 一 点 来 说 ,只 要 
版 本 不 是 太 陈旧 ,那么 运行 的 是 哪个 版 本 都 是 没有 关系 的 。 无 论 自由 软件 
或 是 商业 软件 ,并 不 是 每 一 个 软件 包 都 有 担保 。 后 文 将 讨论 缺 省 图 形 用 户 
界面 的 结果 和 使 用 帮助 菜单 。 移 动 光标 到 最 后 一 点 ,在 符号 >( 即 光标 显示 
的 地 方 ) 后 输入 2 十 2: 
> 2+2 
并 单 击 回 车 键 。 命 令 里 的 空格 是 被 忽略 的 。 你 也 可 以 输入 2+ 2, 或 者 
2 + 2。 我 们 用 简单 的 R 命令 ,是 为 了 强调 你 必须 在 命令 窗口 中 输入 一 些 
命令 才能 在 R 中 得 到 输出 结果 。2 十 2 将 得 到 : 
[1] 4 

在 下 一 章 中 讨论 [1] 的 含义 ,但 是 很 明显 R 可 以 计算 2 与 2 的 和 。 这 
个 简单 的 例子 显示 了 R 是 如 何 工作 的 ;输入 一 些 命令 , 单 击 回 车 键 ,R 将 运 
行 你 的 命令 。 技 巧 是 输入 正确 的 命令 。 错 误 很 容易 产生 。 例 如 ,假设 你 想 
计算 以 10 为 底 的 2 的 对 数 。 你 可 能 输入 : 
> lo0g(2) 
并 且 得 到 : 
[1] 0.6931472 
但 是 0.693 不 是 正确 答案 。 这 是 自然 对 数 。 你 应 该 用 : 
> 1og1012) 
它 将 给 出 一 个 正确 的 答案 ， 
[1] 0.30103 

尽管 log 和 1og10 的 命令 能 够 并 且 应 该 记 住 ,但 是 后 面 我 们 给 出 一 个 
不 可 能 记 住 代码 的 例子 。 输 入 错误 也 可 能 出 现 问题 。 输 入 2 + 2w 会 给 出 
如 下 信息 
> 2 +2w 
Error: syntax error in "2+2w" 

R 当然 不 知道 * 键 和 2 键 紧邻 (至 少 英文 键盘 如 此 ) ,我 们 意外 地 同时 
击 中 了 两 个 键 。 

输入 代码 的 过 程 完全 不 同 于 使 用 图 形 用 户 界面 ,在 图 形 用 户 界面 里 只 
需要 从 下 拉 菜 单 里 选择 变量 单 击 或 双击 一 个 选项 并 /或 者 按 下 “运行 或 
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“完成 "按钮 。 输 入 代码 的 优点 是 它 会 使 你 考虑 输入 什么 、 含 义 是 什么 ,并 
且 代 码 有 更 强 的 灵活 性 。 主 要 的 缺点 是 你 需要 知道 输入 什么 。 

R 有 出 色 的 图 形 工具 。 但 同样 你 不 能 从 方便 的 菜单 里 选择 选项 ,而 需 
要 输入 准确 的 代码 或 者 从 以 前 的 项 目 复制 代码 。 例 如 ,如 果 想 发 现 如 何 改 
变 刻 度 线 方 向 ,可 能 需要 搜索 网 络 新 闻 组 或 者 寻找 在 线 手册 。 


1.4 脚本 代码 


1.4.1 编程 的 艺术 


在 本 阶段 ,是 否 了 解 下 面 的 代码 并 不 重要 ,建议 读者 不 必 尝 试 输入 代 
码 。 我 们 把 它 放 在 这 里 只 是 想 说 明 , 只 要 有 一 些 努力 ,你 就 能 用 R 生成 非 
常 漂亮 的 图 形 。 

>setwd{("C:/RBook/") 

>ISIT<-read.table ("ISIT. txt",header=TRUE) 
>library (1attice) 

>xyplot (Sources~SampleDepth| factor (Station),data=ISIT, 
xlab="Sample Depth",ylab="Sources", 
strip=function (bg=’white’, ...) 
strip.default (bg=’white’, ...), 

panel = function(x, y) { 
panel.grid(h=-1, v= 2) 

Il<-order (x) 

llines (x[I1], y{I1],col=1)}) 

从 第 三 行 ( 从 xyplot 开始 ) 到 最 后 ,所 有 的 代码 组 成 一 个 单独 的 命令 ， 
因此 我 们 只 使 用 了 一 个 “> "符号 。 在 本 节 的 后 面 ,我 们 将 提高 该 脚本 代码 
的 可 读 性 。 生 成 的 图 形 在 图 1. 6 中 给 出 , 它 给 出 了 19 个 站 点 中 深海 浮游 发 
光 生 物 与 深度 的 密度 图 。 该 数据 是 皇家 发 现 号 探险 船 在 2001 与 2002 年 的 
一 系列 的 四 次 巡航 时 ,于 爱尔兰 西部 的 大 西洋 东北 温带 地 区 收集 的 
(Gillibrand 等 ,2006)。 生 成 图 形 花费 了 相当 大 的 精力 ,但 回报 是 ,这 个 单 
个 图 形 给 出 了 所 有 的 信息 ,并 帮助 确定 应 采用 哪 一 种 统计 方法 进行 下 一 步 
的 数据 分 析 (Zuur 等 ,2009) 。 


1.4.2 录入 脚本 代码 


除非 你 对 计算 代码 有 特殊 的 记忆 能 力 ,否则 整 块 的 R 代码 ,例如 用 来 
生成 图 1. 6 的 那些 代码 ,几乎 是 不 可 能 记 住 的。 因此 最 重要 的 是 把 代码 写 
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得 尽 可 能 简单 和 一 般 化 并 且 细 心地 录入 。 仔 细 地 录入 代码 可 以 使 你 在 短 
短 的 几 分 钟 内 对 别 的 数据 集 重 新 生成 图 形 ( 或 者 别 的 分 析 ) ,然而 如 果 没 有 
记录 ,你 可 能 会 脱离 你 自己 的 代码 并 且 需 要 对 一 个 完整 的 项 目 重新 编程 。 
作为 一 个 例子 ,我 们 重新 生成 上 节 使 用 的 代码 ,但 是 现在 加 一 些 注释 。 在 
符号 ^“# "后 的 文本 被 R 忽略 。 尽 管 我 们 还 没有 讨论 R 语法 ,但 是 代码 开始 
给 我 们 一 些 感觉 。 我 们 再 次 建议 本 阶段 你 不 必 尝 试 输入 代码 。 


1000 4000 1000 4000 
16 17 地 









































图 1.6 19 个 站 点 中 深海 浮游 发 光 生物 与 深度 (单位 :, 米 )。 数据 来 自 
Zuur 等 人 (2009) 的 著作 。 允 许 = 轴 与 》 轴 的 坐标 取 不 同 的 范 
围 是 相对 容易 的 。 数据 由 英国 阿 伯 丁 大 学 海洋 实验 室 Monty 
Priede 提供 


>setwd("C:/RBook/") 
>ISIT<-read.table ("ISIT. txt",header=TRUE) 

#Start the actual plotting 

#Plot Sources as a function of SampleDepth, and use a 
#panel for each station. 

#Use the colour black (col=1), and specify x and 了 
#1labels (xlab and ylab). Use white background in the 
#boxes that contain the labels for station 
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>xyplot (Sources~SampleDepth| factor (Station), 
data = ISIT,xlab="Sample Depth",ylab="Sources", 
strip=function (bg=’white’, 
strip.default (bg="white’, 
Panel = function(x,y) { 
#Add grid lines 
#Avoid spaghetti plots 
#plot the data as lines (in the colour black) 
panel.grid (h=-1,v= 2) 
TI<-order (x) 
llines (x[I1],y[I1],col=1)}) 


尽管 仍然 难以 理解 代码 是 做 什么 的 ,但 是 我 们 至 少 可 以 观察 它 的 一 些 
结构 。 你 可 能 已 经 注意 到 我 们 用 空格 说 明 哪些 代码 块 在 一 起 。 这 是 常用 
的 编程 风格 ,并 且 对 理解 你 的 代码 是 很 重要 的 。 如 果 你 不 能 理解 你 以 前 纺 
写 的 代码 ,不 要 希望 别人 能 理解 ! 另外 可 以 通过 在 命令 .变量 ,逗号 等 附近 
添加 空格 来 提高 R 的 可 读 性 。 比 较 上 面 和 下 面 的 代码 ,你 自己 判断 一 下 哪 
个 看 起 来 更 容易 理解 。 我 们 更 喜欢 下 面 的 代码 (再 次 说 明 , 不 必 人 尝试 输入 
代码 )。 


> setwd("C:/RBook/") 
> ISIT <- read.table ("ISIT.txt", header = TRUE) 
> library(lattice) #Load the lattice package 











#Start the actual plotting 
#Plot Sources as a function of SampleDepth, and use a 
#panel for each station. 
#Use the colour black (col=1), and specify x and 了 
#1labels (xlab and ylab). Use white background in the 
#boxes that contain the labels for station 
> xyplot (Sources ~ SampleDepth | factor(Station), 
data = ISIT, 
xlab = "Sample Depth", ylab = "Sources", 
strip = function(bg = ‘white’, ...) 
strip.default (bg = ‘white’, .. 
panel = function(x, y) { 
#Add grid lines 
#Avoid spaghetti plots 
#plot the data as lines (in the colour black) 
panel.grid(h = -1, v = 2) 
I1 <- order (x) 
llines(x[I1], y[I1], col = 1)}) 








P.10 
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后 面 我 们 讨论 可 以 采取 进一步 措施 提高 这 一 块 特定 代码 的 可 读 性 。 
1.5 R 的 图 形 设备 


数据 的 可 视 化 是 数据 分 析 里 最 重要 的 一 个 步骤 。 它 要 求 软件 有 很 好 
的 绘图 设备 。 图 1.7 里 的 图 形 ,展示 了 在 R 中 用 五 行 代码 生成 的 帝 企 约 
(Aptenodytes forsteri) 的 产 卵 日 期 。Barbraud 和 Weimerskirch(2006) 以 
及 Zuur 等 人 (2009) 研 究 了 南极 洲 东部 阿 售 利 地 迪 蒙 " 迪 维尔 研究 站 (the 
Dumont d’ Urville research station in Terre Adélie, East Antarctica) 附 近 


几 种 鸟 种 群 到 达 和 产 卵 日 期 与 气候 变量 的 关系 。 


产 孵 日 期 





tt 


T 
1950 1960 1970 1980 1990 2000 
年 从 


图 1.7 南极 洲 东部 阿 镶 利 地 帝 企 燃 产 卵 日 期 。 为 了 生成 背景 力 像 , 碱 小 了 原始 的 jpeg 
图 像 的 大 小 并 从 图 形 包 里 输出 便携 式 像 案 图 (portable pixelmap,ppm)。R 包 
pixmap 可 以 用 来 把 背景 图 形 输入 到 R,plot 命令 用 来 生成 上 述 图 形 ,addlogo 
命令 驻 盖 了 ppm 文件 。 照片 由 Christoph Barbraud 提供 


可 以 在 图 形 的 一 角 画 出 一 个 小 企 的 图 象 ,或 者 也 可 以 对 小 企 岗 图 象 进 
行 拉 伸 使 得 其 覆盖 整个 绘图 区 域 . 

虽然 它 是 一 个 有 吸引 力 的 图 形 ,但 是 绘制 该 图 居然 花 了 三 个 小 时 ,其 
至 利用 了 Murrell(2006) 的 示范 代码 。 另 外 ,尽管 使 用 了 最 新 的 计算 机 ,最 
初 尝试 时 仍然 导致 了 严重 的 内 存 问题 ,所 以 有 必要 减 小 照片 的 分 辨 率 和 
大 小 。 


1.7 帮助 文件 和 新 闻 组 11 





因此 ,不 是 所 有 的 事情 对 R 来 说 都 是 容易 的 。 本 书 的 作者 经 常 搜索 R 
新 闻 组 寻找 相对 简单 问题 的 答案 。 当 编辑 问 到 如 何 改变 一 个 复杂 的 多 面 
板 图 里 线条 的 厚度 时 , 则 用 了 一 整 天 的 时 间 寻 找 答案 。 然 而 ,企鹅 图 形 能 
由 任何 优秀 的 图 形 包 甚至 在 微软 的 Word 里 生成 ,但 是 该 图 形 不 太 容易 由 
程序 给 出 。 

图 1. 8 给 出 了 Excel 的 饼 图 菜单 , 它 是 许多 统计 人 员 的 梦 寿 。 撰 写 科 
技 文章 ,论文 或 者 报告 时 ,只 有 饼 图 或 者 三 维 条 形 图 被 很 多 专家 认为 是 不 完 
整 的 标志 。 我 们 不 参与 讨论 饼 图 是 一 个 好 的 还 是 坏 的 工具 。 用 谷歌 搜索 “ 饼 
图 不 好 "将 看 到 无 休止 的 网 站 表述 这 方面 的 观点 。 我 们 不 想 强调 R 的 画图 工 
具 比 Excel 有 相当 大 的 改进 。 然 而 如 果 在 图 1. 8 的 菜单 驱动 形式 和 1. 3 节 里 
看 起 来 很 复杂 的 代码 间 做 一 个 选择 ,那么 Excel 有 很 强 的 诱惑 力 。 


Chart Wizard - Step 1 of 4 - Chart Type 


Standard Types | custom Types | 


Chartaub-ype， 














图 1.8 Excel 里 的 饼 图 菜单 


pl 
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1.6 编辑 


如 前 所 述 , 运 行 R 代码 时 需要 用 户 输入 代码 并 单 击 回 车 键 。 强 烈 推荐 
把 代码 输入 到 一 个 特殊 的 文本 编辑 器 里 并 复制 粘贴 到 R 里 。 这 样 方便 用 
户 保 存 代码 ,生成 文件 以 及 在 后 续 阶 段 重 新 运行 。 问 题 是 使 用 哪 一 种 文本 
编辑 器 。 我 们 使 用 的 是 Windows 操作 系统 ,因此 我 们 不 能 对 Mac, UNIX 
或 者 LINUX 系统 推荐 编辑 器 。 网 站 http://www. sciviews. org/_rgui/ 
projects/Editors, html 给 出 了 大 量 编辑 器 的 详细 描述 。 该 网 站 包含 Mac， 
UNIX 和 LINUX 系统 编辑 器 的 一 些 信息 。 

对 于 Windows 操作 系统 ,我 们 强烈 建议 不 要 使 用 微软 Word。Word 
会 自动 包装 多 行文 本 并 且 在 该 行 的 开始 添加 大 写字 母 。 这 两 者 都 会 导致 
在 R 中 产生 出 错 信息 。R 自 带 的 文本 编辑 器 ( 单 击 文件 -> 新 建 脚本 (File -> 
New script) 如 图 1. 5 所 示 ) 和 记事 本 可 供 选 择 ,尽管 它们 没有 R 特定 的 文 
本 编辑 器 比如 Tinn-RChttp://www. sciviews. org/Tiun-R/) 和 RWindEdt 
(这 是 一 个 R 包 ) 的 更 多 功能 可 以 利用 。 

R 对 格式 是 敏感 的 ,编程 需要 用 到 大 括号 {) ,小 括号 () ,和 中 括号 []。 
开始 的 括号 “(” 与 结束 的 括号 “}" 的 正确 配对 以 及 在 一 项 任务 里 正确 使 用 
括号 的 位 置 是 很 重要 的 。R 初学 者 的 一 些 错误 常 与 忘记 括号 或 者 使 用 错 
误 的 括号 类 型 有 关 。Tinn-R 和 RWinEdt 使 用 颜色 来 显示 匹配 的 括号 ,这 
是 一 个 特别 有 用 的 工具 。 它 们 也 使 用 不 同 的 颜色 来 区 别 函 数 与 别 的 代码 ， 
帮助 突出 输入 错误 。 

Tinn-R 是 免费 提供 的 ,而 RwinEdt 是 共享 软件 ,但 使 用 一 个 周期 后 需 
要 支付 一 笔 小 额 费 用 。 当 执行 程序 时 ,两 个 软件 都 可 以 在 编辑 器 里 加 亮 文 
本 并 且 点 击 一 个 按钮 直接 把 代码 传送 给 R。 这 样 就 可 以 不 用 复制 和 粘贴 ， 
但 是 这 个 选项 有 时 在 网 络 系统 里 可 能 不 工作 。 当 Tinn-R 和 RwinEdt 与 R 
一 起 使 用 时 ,我 们 推荐 使 用 在 线 手册 。 

图 1.9 给 出 了 我 们 首选 的 编辑 器 Tinn-R 的 快照 ,再 次 强调 一 下 ,在 复 
制 并 粘贴 (或 直接 传送 ) 到 R 之 前 ,即便 只 有 几 行 代码 ,也 输入 你 的 R 代码 
到 文本 编辑 器 比如 Tinn-R 里 。 
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图 1.9 TinnR 文本 编辑 器 。 每 个 括号 类 型 有 一 种 特殊 的 颜色 .在 菜单 选项 -> 主 
要 -> 编辑 (Options -> Main -> Editor) 下 ,字体 尺寸 可 以 增 大 。 在 药 单 选 
项 -> 主要 -> 应 用 -> R(Options -> Main -> Application -> R) 下 ,你 可 以 对 R 
设置 具体 的 路 径 。 在 目录 C:\Program Files\R\R-2.7. 1\bin( 假 设 默认 安装 
设置 ) 里 选择 Rgwi exe 文件 。 如 果 你 用 的 是 不 同 的 R 版 本 可 以 调整 R 的 目 
录 。 这 个 选项 允许 通过 高 亮 显示 代码 并 点 击 文件 名 上 面 的 一 个 图 标 把 成 块 
的 代码 直接 发 送 到 R 
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当 用 R 工作 时 ,几乎 对 每 一 件 任务 你 将 有 多 重 选择 ,并 且 ,因为 这 里 没 
有 单独 的 资源 去 描述 所 有 可 能 发 生 的 事情 ,因此 知道 去 哪里 寻找 帮助 是 非 
常 重要 的 。 假 设 你 希望 学 习 如 何 生成 盒 形 图 。 在 R 中 你 最 好 的 朋友 是 问 
号 。 输入: 
> ?boxplot 
并 单 击 回 车 键 。 或 者 你 也 可 以 用 : 
> help {boxplot) 

打开 帮助 窗口 ,将 会 出 现 标题 为 描述 、 用 法 、 参 数 、 详 细 、 值 参考 、 另 见 
和 范例 的 文档 。 这 些 帮助 文件 不 是 “ 傣 瓜 指南 "并 且 看 起 来 有 些 吓 人 。 我 
们 推荐 阅读 描述 部 分 ,快速 浏览 用 法 部 分 (惊叹 难以 理解 的 选项 ) ,然后 观 
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察 范例 了 解 R 中 盒 形 图 的 思想 。 复制 一 些 例子 代码 并 粘贴 到 R 中 。 
下 述 的 几 行 代码 来 自 于 帮助 文件 的 范例 。 
> boxplot (count ~ spray, data = InsectSprays, 
col = "lightgray") 
生成 的 盒 形 图 如 图 1. 10 所 示 。 语法 count 一 spray, 确 保 昆虫 喷雾 剂 的 每 个 
水 平生 成 一 个 盒 形 图 。 昆 虫 喷雾 剂 数据 的 信息 可 以 通过 下 述 输入 获得 ， 


> ?InsectSprays 





25 


20 
| 


加 
[ 


10 








图 1. 10 从 伪 形 图 帮助 文件 里 复制 并 粘贴 代码 到 R 得 到 的 傅 形 图 
查看 该 图 的 数据 来 源 ,输入 ;? InsectSprays 
重要 的 是 复制 整 块 的 代码 而 不 是 仅 包 含 该 代码 的 部 分 片段 。 对 于 长 
块 的 代码 ,一 般 很 难 确定 开始 和 结束 点 ,有 时 需要 猜测 命令 的 特定 结束 位 
置 在 哪里 。 例 如 ,如 果 你 只 是 复制 并 粘贴 了 文本 


> boxplot (count ~ spray, data = InsectSprays, 


你 将 会 看 到 一 个 “十 "号 (图 1. 11) ,提示 R 等 待 更 多 的 代码 。 粘 贴 剩余 的 代 
码 或 者 点 击 Esc 键 取消 上 述 操作 并 继续 复制 粘贴 完整 的 命令 。 

几乎 所 有 的 帮助 文件 都 与 botplot 函数 的 帮助 文件 具有 相似 的 结构 。 

如 果 你 不 能 在 帮助 文件 里 找到 答案 ,点 击 菜单 里 (图 1. 5) 帮 助 -> Html 
帮助 (Help -> Html help) 。 将 出 现 图 1. 12 的 窗口 (假设 弹出 窗口 拦截 器 是 
关闭 的 ) 并 链接 到 提供 大 量 信息 的 浏览 器 。 搜 索引 擎 和 关键 词 允许 你 搜索 
函数 .命令 和 关键 词 。 

如 果 帮 助 文 件 不 能 给 你 的 问题 提供 答案 ,此 时 可 以 搜索 R 新 闻 组 。 可 
能 过 去 别人 已 经 讨论 过 你 的 问题 。R 新 闻 组 可 以 通过 网 站 www. 
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图 1.11 当 不 完整 的 命令 输入 时 ,R 会 等 待 更 多 的 代码 。 可 以 加 入 剩 余 的 


代码 或 者 单 击 "Esc" 键 放弃 绘制 愈 形 图 命令 
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Statistical Data Analysis BR 





Manuals 
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Reference 


Samch Engine &Kcrword 


Miscellaneous Material 








图 1.12 通过 R 的 帮助 菜单 点 击 帮助 - > Html 帮助 (Help -> Html help) 得 到 的 窗口 . 


搜索 引擎 和 关键 词 允 许 搜索 函数 、 命 令 和 关键 词 。 你 需要 关闭 所 有 的 弹出 
窗口 拦截 器 
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r-project, org 找 到 。 点 击 邮件 列表 ,进入 R 帮助 部 分 ,点 击 网 络 接口 。 进 入 
到 一 个 可 搜索 文档 会 看 到 数 以 十 万 计 的 帖子 。 接 下 来 就 是 用 相应 的 关键 
词 去 寻找 相似 的 问题 。 

如 果 你 仍然 不 能 找到 问题 的 答案 ,那么 作为 最 后 的 手段 你 可 以 尝试 给 
新 闻 组 发 一 个 消息 。 首 先 阅读 帖子 指南 ,或 者 你 可 能 会 被 提醒 你 应 该 这 样 
做 ,特别 是 你 的 问题 以 前 已 经 讨论 过 ,或 者 在 帮助 文件 里 已 有 答案 。 


1.8 程序 包 


R 带 有 一 系列 默认 的 程序 包 。 包 是 先前 编写 的 函数 的 集合 ,常常 是 为 
了 特殊 任务 所 写 的 函数 。 称 之 为 库 也 具有 吸引 力 , 但 是 R 团体 习惯 称 之 
为 包 。 

包 有 两 种 类 型 :R 底层 安装 自 带 的 包 和 需要 手动 下 载 和 安装 的 包 。 随 
着 底层 安装 我 们 指 的 是 在 1. 2 节 中 下 载 和 安装 的 大 的 可 执行 文件 。 如 果 
你 在 大 学 校园 网 里 使 用 R,R 一 般 由 IT 人 员 安 装 , 那 么 你 可 能 只 有 底层 版 
本 。 底 层 版 本 包含 一 般 最 常用 的 包 。 为 了 查看 你 安装 的 包 , 点 击 包 -> 载 入 
包 (Packages -> Load package) (图 1. 5)。 

有 数 百 个 用 户 捐献 包 不 是 底层 安装 的 一 部 分 ,它们 大 部 分 可 以 通过 RR 
网 站 访问 ,许多 可 利用 的 包 可 以 执行 与 商业 包 相 同 的 统计 计算 功能 。 例 
如 ,多 元 vegan 包 可 以 执行 商业 包 如 PRIMER, PCORD, CANOCO 和 
Brodgar 的 方法 。 

1.8.1 包含 在 底层 安装 的 包 

可 以 通过 点 击 鼠 标 或 者 输入 具体 的 命令 来 载 人 随 着 底层 安装 的 包 。 

你 可 以 点 击 包 -> 载 入 包 (Packages -> Load package) (图 1. 5) 选 择 一 个 
包 , 并 点 击 完成 。 那 些 不 喜欢 点 击 的 人 (如 我 们 ?可 以 通过 library 命令 给 
出 更 有 效 的 方法 。 例 如 为 了 载 人 MASS 包 , 输 入 命令 ; 
> library (MASS) 

并 单 击 回 车 键 。 现 在 你 可 以 访问 MASS 包 里 所 有 的 函数 。 那 么 接 下 来 怎 
么 办 ? 你 可 以 阅读 一 本 书 ,例如 Venables 和 Ripley(2002) ,来 学 习 你 如 何 
使 用 该 包 。 更 多 的 时 候 过 程 是 相反 的 。 假 设 你 想 对 一 个 数据 集 使 用 广义 
线性 混合 模型 (generalised linear mixed modeling, GLMM)?。 查 阅 





中 GLMM 是 一 个 商 级 的 线性 回归 模型 。 与 正 态 分 布 不 同 ,可 以 使 用 其 它 类 型 的 分 布 , 例 如 计数 
数据 的 泊 松 分 布 或 者 负 二 项 分 布 和 二 元 数据 的 二 项 分 布 。 
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Venables 和 Ripley(2002) 显 示 你 可 以 在 MASS 包 ( 有 另外 的 选择 存在 ) 里 
使 用 glmmPQL 函数 。 因 此 如 上 所 述 你 可 以 用 1ibrary 命令 载 人 MASS 并 
输入 ? glmmPQL 得 到 应 用 GLMM 的 说 明 。 


1.8.2 不 包含 在 底层 安装 的 包 


有 时 载 人 包 的 过 程 稍微 更 复杂 一 些 。 例 如 , 当 你 看 到 一 篇 论文 里 面 给 
制 了 数据 的 空间 位 置 图 (经 度 和 纬度 ) ,并且 点 的 尺寸 大 小 与 数据 值 成 正 
比 。 文 章 里 说 明 该 图 形 是 由 gstat 包 里 的 bubble 函数 绘制 的 。 如 果 你 点 
击 包 -> 载 入 包 (Packages -> Load package) (如 图 1. 5 所 示 ) ,你 将 看 不 到 
gstat。 如 果 包 不 在 列表 里 出 现 ,说 明 还 没有 安装 该 包 。 因 此 也 可 以 用 这 
种 方法 来 判断 一 个 包 是 否 是 底层 安装 的 一 部 分 。 为 了 获取 并 安装 gstat， 
或 者 其 它 任何 可 利用 的 包 , 你 可 以 从 R 网 站 下 载 压缩 包 并 告诉 R 安装 该 
包 , 或 者 你 可 以 从 R 里 直接 安装 。 我 们 讨论 这 两 种 方法 。 另 外 也 有 第 三 种 
方法 , 即 帮助 文件 里 描述 的 函数 install. packages。 

请 注意 一 个 包 的 安装 过 程 只 需要 进行 一 次 。 


方法 1, 手动 下 载 和 安装 

打开 你 的 网 络 浏览 器 ,进入 到 R 网 站 (www. r-project. org) ,点击 
CRAN, 选 择 一 个 服务 器 ,在 标题 软件 (Software) 下 点 击 包 (Packages) 。 你 
会 看 到 用 户 捐献 包 列表 。 选 择 gstat( 这 是 一 个 很 长 的 下 拉 过 程 )。 现 在 你 
可 以 下 载 压缩 包 ( 对 于 Windows 系统 该 文件 称 为 Windows 二 进 制 文件 ) 和 
手册 。 一 旦 文件 下 载 到 你 的 硬盘 ,打开 R 并 从 本 地 zip 文件 (local zip file) 
点 击 包 -> 安装 包 (Packages -> Install packages) 。 选 择 你 刚才 下 载 的 文件 。 

通常 网 站 上 的 包 会 有 一 个 PDF 格式 的 手册 提供 额外 有 用 的 信息 。 手 
动 下 载 过 程 中 可 能 过 到 一 个 潜在 的 问题 是 有 时 一 个 包 依赖 于 另外 一 个 包 ， 
该 包 也 不 包含 在 底层 安装 ,所 以 你 也 需要 下 载 这 些 包 。 任何 依 赖 于 其 它 的 
包 网 站 上 会 提 及 ,但 它 可 能 更 像 一 个 树 状 结构 ;这 些 辅助 的 包 也 可 能 依赖 
于 其 它 的 包 。 

下 面 的 方法 会 自动 安装 任何 有 关联 的 包 。 
方法 2. 从 及 里 下 载 并 安装 包 

如 图 1.5 所 示 , 点 击 包 -> 选择 CRAN 镜像 (Packages - > set the CRAN 
mirror) 并 选择 一 个 服务 器 (例如 英国 布 里 斯 托 尔 )。 现 在 返回 包 
(Packages) 并 单 击 安装 包 (Install package(s)) 将 出 现 一 个 包 列表 从 中 你 可 
以 选择 gstat。 除 非 你 把 R 升级 到 一 个 新 的 版 本 ,否则 该 过 程 只 需要 执行 
一 次 。( 有 规律 的 升级 即 可 ,只 要 有 R 新 版 本 便 进行 升级 是 没有 必要 的 ,一 
年 升级 一 到 两 次 就 足够 了 .) 
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请 注意 网 络 计算 机 或 者 使 用 VISTA 操作 系统 时 ,由 于 防火 墙 或 者 其 
它 的 安全 设置 ,可 能 会 导致 安装 出 现 问 题 。 这 些 具体 的 计算 机 问题 这 里 不 
做 讨论 。 

1.8.2.1 载 入 包 

安装 和 载 人 是 不 相同 的 。 安 装 指 的 是 把 包 加 入 到 R 的 底层 版 本 。 载 
入 意味 着 我 们 准备 使 用 包 并 可 以 访问 该 包 里 的 所 有 函数 。 如 果 一 个 包 没 
有 安装 是 不 可 以 载 人 的 。 我 们 可 以 采用 1. 8. 1 节 描 述 的 两 种 方法 之 一 载 
人 gstat 包 。 一 旦 载 人 成 功 ,? bubble 会 给 出 该 函数 的 使 用 说 明 。 

在 图 1. 13 里 我 们 总 结 了 安装 和 载 人 包 的 过 程 。 


使 用 R 里 的 一 个 包 ， 


我 要 使 用 包 y 
里 的 函数 x 





图 1.13 概述 R 里 安装 和 加 载 包 的 过 程 。 如 果 一 个 包 是 底层 安装 的 一 部 分 或 者 
先前 已 经 安装 过 ,使 用 library 函数 。 如 果 一 个 包 的 运行 依赖 于 其 它 的 
包 , 若 它们 已 经 安装 , 则 会 自动 载 人 。 若 它们 没有 安装 , 则 可 以 通过 手动 
安装 。 一旦 你 曾经 安装 过 一 个 包 , 就 不 必 再 次 安装 该 包 


1.8.2.2 如 何 判 断 一 个 包 的 好 坏 ? 

在 课程 学 习 期 间 ,参与 者 有 时 会 问 用 户 捐献 包 的 质量 。 一 些 包含 几 百 
个 函数 的 包 由 该 领域 内 著名 的 科学 家 编写 ,他 们 通常 在 自己 的 著作 里 叙述 
了 所 使 用 的 方法 。 一 些 仅 包含 少许 函数 的 包 可 能 在 公开 出 版 的 论文 里 用 
到 。 因 此 , 包 的 捐献 者 既 有 热心 的 博士 生 也 有 出 版 十 几 本 图 书 的 教授 。 因 
此 没有 办 法 说 明 哪 一 个 包 比 较 好 。 可 以 检查 包 更 新 的 频率 并 把 它 发 送 到 R 
新 闻 组 查看 别人 的 经 验 。 
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1.9 R 的 一 般 问 题 


本 节 我 们 讨论 R 使 用 过 程 中 的 各 种 问题 以 及 使 过 程 简化 的 方法 。 

如 果 你 是 介绍 R 使 用 方法 的 教师 ,或 者 你 阅读 小 字号 文本 有 困难 ,能 
够 调整 字体 大 小 是 至 关 重要 的 。 这 可 以 在 R 里 通过 点 击 编辑 -> 图 形 用 户 
界面 选项 (Edit -> GUI preferences) 进 行 设置 。 

当 图 形 生成 时 初次 使 用 的 用 户 可 能 会 对 控制 台 的 运行 产生 困惑 , 举 一 
个 例子 , 见 图 1. 14。 请 注意 图 形 工具 是 活动 的 。 如 果 你 尝试 复制 并 粘贴 代 
码 到 RR, 将 没有 反应 。 你 需要 在 粘贴 R 代码 前 使 R 控制 台 窗口 (左边 ) 处 于 
活动 状态 。 如 果 粘 贴 代码 时 R 控制 台 窗口 是 最 大 化 的 ,图 形 设备 (在 R 控 
制 台 窗口 的 后 面 ) 将 是 不 可 见 的。 改变 控 制 台 窗口 大 小 或 者 使 用 CRTL/ 
TAB 键 可 以 在 两 个 窗口 间 切 换 。 
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图 1.14 生成 图 形 后 的 R。 为 了 运行 新 的 命令 ,必须 首先 点 击 控制 台 


为 了 保存 图 形 , 点 击 图 形 窗口 使 它 处 于 活动 状态 并 右 击 鼠 标 。 然 后 你 
可 以 把 它 作为 图 元 文件 直接 复制 到 其 它 的 程序 比如 微软 Word 里 。 后 面 ， 
我 们 将 讨论 把 图 形 保存 到 文件 的 命令 。 

当 使 用 Tinn-R( 或 者 任何 其 它 文本 编辑 器 ) 时 ,许多 人 常 犯 的 错误 是 没 
有 复制 代码 最 后 一 行 的 “隐藏 回 车 键 "的 符号 。 为 了 表明 我 们 所 说 的 意思 ， 
见 图 1. 15 和 图 1.16。 在 第 一 个 图 中 ,我 们 复制 了 先前 输入 到 Tinn-R 中 的 
xyplot 命令 的 代码 。 请 注意 我 们 在 圆 括号 结束 后 立即 停止 了 选择 。 把 这 
部 分 代码 粘贴 到 R 里 会 出 现 图 1. 16 的 情形 。 现 在 R 在 等 待 我 们 输入 回 车 
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图 1.15 我 们 的 Tinn-R 代码 ,请 注意 我 们 从 最 后 一 个 国 括号 向 上 复制 代 
码 . 我 们 应 该 把 鼠标 拉 低 一 行 以 包括 隐藏 的 四 车 键 这 样 将 执行 
xyplot 命令 


Re i | 


Cursor 





图 1.16 我 们 的 代码 粘贴 到 R。R 在 等 待 我 们 输入 四 车 键 以 执行 
xyplot 命令 。 假 如 我 们 复制 了 Tinn-R 里 的 额外 一 行 ， 
命令 将 会 自动 执行 ,并 且 将 会 显示 图 形 


键 , 它 才 会 输出 图 形 。 这 种 情形 会 令 人 担忧 ,以 为 R 什么 都 不 做 ,尽管 代码 
是 正确 的 并 且 完 整地 复制 到 了 R 里 一 一 除了 代码 最 后 一 行 的 四 车 键 命令 。 
解决 的 方法 很 简单 : 单 击 回 车 键 ,并 在 下 一 次 复制 前 高 亮 显示 最 后 的 圆 括 
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号 下 面 的 额外 一 行 。 
1.9.1 退出 R 和 设置 工作 目录 


另外 一 个 有 用 的 命令 是 : 
> 9() 

该 命令 退出 R。 在 退出 之 前 ,会 询问 是 否 保存 工作 空间 。 如 果 你 决定 
保存 ,我 们 强烈 建议 你 不 要 把 它 保存 在 默认 目录 下 。 如 果 这 样 做 , 当 R 重 
新 启动 时 会 自动 载 人 所 有 的 结果 。 为 了 避免 R 询问 是 否 保存 数据 ,使 用 : 
> gfsave = "no") 

R 不 做 保存 而 直接 退出 。 为 了 改变 默认 工作 目录 可 以 使 用 ， 
> setwdl(file = "C:\\AnyDirectory\\") 


这 个 命令 只 有 在 目录 AnyDirectory 存在 时 才 起 作用 。 选 择 一 个 合理 
的 名 称 (我 们 的 不 是 )。 请 注意 在 Windows 操作 系统 里 必须 使 用 两 个 反 斜 
杠 。 另 一 种 可 供 选 择 的 方法 是 使 用 ; 


> setwd(file = "C:/AnyDirectory/") 


在 目录 结构 中 一 般 使 用 简单 的 名 称 。 应 该 避免 目录 名 称 里 包含 字符 
比如 * ,&&,0,$,£,“ 等 。R 也 不 接受 有 变 音符 的 字母 符号 比如 有 ,i,6,6,e， 
《等 。 

我 们 推荐 把 R 代码 保存 在 文本 编辑 器 中 而 不 要 保存 在 你 的 工作 空间 
中 。 下 次 使 用 时 ,打开 编辑 好 的 存档 文件 ,复制 代码 并 把 它 粘贴 到 R 里 。 
你 的 结果 和 图 形 将 会 重新 出 现 。 保 存 你 的 工作 空间 只 会 使 更 多 文件 充斥 
于 你 的 硬盘 ,或 许 一 星期 以 后 你 将 不 记得 如 何 得 到 所 有 的 变量 ,矩阵 等 。 
从 R 代码 里 找 回 这 些 信息 相对 比较 容易 。 唯 一 的 例外 是 如 果 你 的 计算 需 
要 花费 很 长 的 时 间 去 完成 。 如 果 是 这 种 情况 ,建议 把 工作 空间 保存 到 你 的 
工作 目录 里 的 某 个 地 方 。 为 了 保存 工作 空间 ,点 击 文件 -> 保存 工作 空间 
(File -< Save Workspace) ,为 了 载 人 一 个 已 经 存在 工作 的 空间 ,使 用 文 
件 -> 载 入 工作 空间 (File -< Load Workspace) 。 

如 果 你 想 对 不 同 的 数据 集 开始 一 个 新 的 分 析 , 移 除 所 有 的 变量 可 能 是 
有 用 的 。 一 种 方法 是 退出 R 并 重新 启动 。 另 一 种 方法 是 点 击 其 它 -> 删除 
所 有 对 象 (Misc -< Remove all objects) 。 可 以 通过 下 面 的 命令 完成 
> rm(list = ls(all = TRUE)) 


在 编辑 (Edit) 菜 单 下 还 有 一 些 其 它 有 用 的 选项 。 例 如 ,你 可 以 点 击 全 
选 (Select all) 以 复制 所 有 的 命令 并 输出 到 微软 Word 里 。 
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1.10.1 R 的 一 个 简短 历史 回顾 


如 果 你 准备 开始 用 R 工作 , 它 的 历史 可 能 是 你 最 后 一 个 想 知道 的 事 
情 。 然 而 ,我们 可 以 保证 某 时 某 地 会 有 人 问 你 这 个 包 为 什么 叫 R。 为 了 让 
你 有 一 个 令 人 印象 深刻 的 回答 ,我们 用 一 些 词语 介绍 一 下 这 个 包 是 何 时 由 
谁 发 展 的 ,怎么 发 展 的 以 及 为 什么 发 展 该 包 。 毕 竟 , 知 道 一 点 历史 知识 是 
没有 坏处 的 。 

R 是 基于 计算 机 语言 S 发 展 的 。S 是 由 贝尔 实验 室 的 John Chambers 
和 另外 一 些 人 于 1976 年 共同 开发 的 。 在 20 世纪 90 年 代 初 ,Ross Ihaka 和 
Robert Gentleman( University of Auckland,in Auckland, New Zealand) 开 
发 了 该 语言 并 把 他 们 的 成 果 称 为 R。 请 注意 两 个 人 的 名 字 都 是 以 字母 R 
开始 。 当 修改 S 语言 时 ,试图 把 它 称 为 或 R。 

自从 1997 年 ,R 的 开发 由 R 开发 核心 小 组 负责 。 小 组 成 员 名 单 可 以 
由 RFAQ 获得 (Hornik,2008;http://CRAN. R-project. org/doc/FAQ/R- 
FAQ. html) 。 

Wikipedia 网 站 很 好 地 概述 了 R 发 展 的 里 程 碑 。2000 年 发 行 了 1. 0.0 
版 本 ,此 后 有 各 种 扩展 版 本 可 以 利用 。 这 本 书 基 于 版 本 2. 7 编写 , 它 在 
2008 年 4 月 发 行 。 


1.10.2 有 关 R 的 书籍 和 使 用 R 的 书籍 


提供 使 用 R 的 书籍 的 一 个 概述 过 到 的 一 个 问题 是 有 一 个 好 的 机 会 省 
略 一 些 书 , 或 者 写 一 个 完全 主观 的 概述 。 还 有 一 个 时 间 方 面 的 问题 , 当 你 
读 这 一 点 时 ,许多 关于 R 的 新 书 将 会 出 现 。 因 此 ,我 们 把 讨论 限制 在 了 我 
们 觉得 有 用 的 书 上 。 

虽然 关于 R 的 书 少 得 惊人 ,但 是 有 许多 用 R 做 统计 的 书 。 我 们 对 这 两 
者 不 做 明显 的 区 分 。 

第 一 本 书 是 Statistical Models in S,Chambers 和 Hastie(1992) 著 , 因 
为 它 有 一 个 白色 的 封皮 ,在 非 正式 场合 把 它 称 为 白皮书 。 它 没有 直接 涉及 
R, 而 是 R 的 基础 语言 S。 然 而 ,它们 之 间 很 少 有 实际 差别 。 该 书 给 出 了 S 
语言 的 详细 解释 和 如 何在 S 中 应 用 大 量 的 统计 技术 。 它 还 包括 一 些 统计 
理论 。 

第 二 本 最 经 常用 的 书 是 Modern Applied Statistics with S,4th ed. ， 
Venables 和 Ripley (2002) 著 , 紧 接 着 Dalgaard 著 的 一 书 Introductory 
Statistics with R 出 版 。 在 撰写 该 书 时 ,Dalgaard 的 第 2 版 正在 印刷 中 。 
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这 两 本 都 是 R 用 户 的 “ 必 备 ” 书 。 

还 有 一 些 书 介绍 使 用 R 时 采用 的 一 般 统计 方法 。 其 中 一 些 在 我 们 的 
书架 上 ,我 们 给 出 的 评价 是 : 
。 The R book ,Crawley 著 (2007)。 这 是 一 本 很 厚 的 书 , 快 速 引入 了 多 种 统 
计 方 法 并 演示 如 何在 R 中 应 用 。 该 书 的 缺点 是 ,一 旦 你 开始 使 用 一 个 
详细 的 方法 ,将 需要 根据 文献 进一步 钻研 更 深 的 基本 统计 方法 。 
Statistics. An Introduction Using R,Crawley 著 (2005)。 
A Handbook of Statistical Analysis Using R,Everitt 和 Hothorn 著 
《2006) 。 
Linear Models with R ,Faraway 著 (2005) 。 我 们 强烈 推荐 这 本 书 以 及 
它 的 续集 ,Ertending the Linear Models with R ,同一 作者 著 。 
Data Analysis and Graphics Using R: An Erample-Based Approach, 
Maindonald 和 Braun 著 (2003)。 该 书 主要 由 回归 和 广义 线性 模型 组 
成 ,同时 也 有 一 些 关 于 R 的 介绍 。 
An R and S-PLUS Companion to Multivariate Analysis, Everitt 著 
(2005) 。 该 书 处 理 经 典 多 元 分 析 方 法 。 比 如 因子 分 析 、 多 维 尺度 、 主 成 
分 分 析 以 及 包含 混合 效应 模型 章节 。 
Using R for Introductory Statistics ,Verzani 著 (2005)。 标 题 描述 了 该 
书 的 内 容 ; 它 对 本 科 统 计 课程 很 有 用 途 。 
RGraphics,Murrell 著 (2006)。 如 果 你 想 更 深入 地 钻研 R 图 形 这 是 一 
本 “ 必 备 "的 书 。 

也 有 更 多 使 用 R 的 专业 书籍 ,例如 : 

Time Series Analysis and Its Application. With R Examples—Second 
Edition,Shumway 和 Stoffer 著 。 这 是 一 本 很 好 的 时 间 序列 书 。 
Data Analysis Using Regression and Multilevel/ Hierarchical Models， 
Gelman 和 Hill 著 。 这 是 一 本 使 用 R 代码 和 R 输出 的 有 关 社 会 科学 混 
合 效应 模型 的 书 。 
对 于 混合 效应 模型 ,“ 必 须 买 " 并 且 * 必 须 引 用 "的 书 是 Mized Effects 
Models in S and S-Plus ,Pinheiro 和 Bates 著 (2000) 。 
对 于 同一 主题 “必须 买 " 并 且 * 必 须 引用 "的 广义 加 性 模型 的 书 是 
Generalized Additive Models: An Introduction with R, Wood(2006) 
著 。 
后 两 本 书 对 于 数学 知识 匮乏 的 读者 不 太 容易 阅读 ,一 本 可 供 选 择 的 书 是 
Mized Ef fects Models and Ertensions in Ecology with R,Zuur 等 著 
《2009) 。 因 为 它 的 前 两 个 作者 也 是 你 目前 正在 读 的 这 本 书 的 作者 ,所 以 
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它 是 “必须 立即 买 "并 且 * 必 须 从 前 到 后 阅读 "的 书 ! 

另外 一 本 关于 广义 加 性 模型 和 R 的 容易 阅读 的 书 是 Semi-Parametric 
Regression for the Social Sciences,Keele 著 (2008) 。 

如 果 你 的 工作 与 基因 组 学 和 分 子 数 据 有 关 , Bioinformatics and 
Computational Biology Solutions Using R and Bioconductor, 
Gentleman 等 著 (2005) 是 一 本 很 好 的 需要 首先 阅读 的 书 。 

我 们 也 强烈 推荐 An R and S-Plus Companion to Applied Regression， 
Fox 著 (2002)。 

对 于 人 门 级 ,你 可 能 要 考虑 A First Course in Statistical Programming 
with R,Braun 和 Murdoch 著 (2007) 。 

因为 我 们 对 具有 优美 多 面板 图 形 ( 见 第 8 章 ) 的 lattice 包 很 感 兴趣 ,所 
以 我 们 强烈 礁 荐 Lattice. Multivariate Data Visualization with 尺 ， 
Sarkar 著 (2008) 。 自 从 这 本 书 来 到 我 们 的 书桌 以 后 就 从 来 没有 离开 过 。 


1.10.2.1 应 用 R! 系 列 

这 本 书 是 斯 普 林 格 “应 用 R1” 系 列 的 一 部 分 ,当时 该 系列 的 书 至 少 由 
15 本 组 成 ,每 本 书 描述 一 个 特殊 的 统计 方法 及 它 在 R 中 的 应 用 ,更 多 的 书 
在 出 版 中 。 

如 果 你 是 幸运 的 ,你 的 统计 问题 会 在 该 系列 的 某 一 本 书 中 讨论 。 例 
如 ,如 果 你 的 工作 与 形态 数据 有 关 , 你 应 该 肯定 看 一 下 Morphometrics with 
R,Claude(2008) 著 ,对 于 空间 数据 党 试 Applied Spatial Data Analysis 
with RR， Bivand 等 (2008) 著 , 对 于 小 波 分 析 , 见 Wavelet Methods in 
Statistics with R，Nason (2008) 著 , 该 系列 有 用 的 另 一 卷 是 Data 
Manipulation with R,Spector (2008) 著 ; 该 书 里 没有 准备 更 多 元 长 的 
Excel 和 Access 数据 ! 对 于 更 进一步 的 建议 我 们 推荐 你 参考 http:// 
www. springer. com/series/6991 寻找 最 新 的 目录 。 

毫 无 疑问 我 们 省 略 了 一 些 书 , 这 样 做 可 能 使 一 些 读者 和 作者 感到 失 
望 ,但 是 我 们 写作 时 这 些 书 也 在 我 们 书架 上 。 更 全 面 的 目录 见 http:// 


www. rproject org/doc/ bib/Rpublications. html。 


1.11 使 用 这 本 书 


第 一 次 阅读 时 ,在 决定 哪些 章节 是 重点 哪些 章节 是 可 以 跳 过 之 前 ,你 
应 该 考虑 这 个 问题 “我 为 什么 使 用 R?" 对 于 这 个 问题 我 们 听 到 各 种 各 样 的 
答案 ,比如 : 
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. 我 的 同事 正在 用 它 。 

.我 对 它 感 兴趣 。 

.我 需要 的 统计 方法 只 在 R 中 是 可 利用 的 。 

. 它 是 免费 的 。 

， 它 有 出 色 的 图 形 设备 。 

. 它 是 唯一 的 在 网 络 上 安装 的 统计 软件 包 。 

. 我 这 样 做 因为 它 是 教育 方案 的 一 部 分 (比如 ,学 士 \ 硕 士 ,博士 ) 。 
. 我 的 主管 告诉 我 这 样 做 。 

.学 习 R 是 我 的 工作 。 


pmpahmmwnr 


在 我 们 的 课程 期 间 ,我 们 遇 到 一 批 动机 不 明 的 参与 者 我 被 告诉 这 样 
做 "我 感 兴趣 "。 你 如 何 最 好 地 使 用 这 本 书 依赖 于 你 自己 学 习 R 的 动机 。 
如 果 你 是 “我 感 兴趣 "的 人 ,那么 从 前 到 后 阅读 这 本 书 。 根 据 您 自己 的 情 
况 ,下 面 根 据 消费 者 的 信息 提出 了 一 般 的 建议 。 

本 书 中 一 些 章节 用 一 个 星 号 ( * ) 作 为 标记 :这 需要 略 多 的 技巧 ,第 一 
次 阅读 时 你 可 以 跳 过 它们 。 
1.11.1 如 果 你 是 一 位 教师 


因为 这 本 书 里 的 材料 已 经 在 我 们 自己 的 R 和 统计 课程 里 使 用 ,我 们 也 
看 到 了 很 多 学 生 接 触 到 它 的 反应 。 我 们 的 第 一 个 建议 很 简单 ;不 要 走 得 太 
快 ! 如 果 和 尝试 在 一 两 天 内 的 R 课程 中 覆盖 尽 可 能 多 的 材料 ,你 将 是 浪费 你 
和 你 学 生 的 时 间 。 我 们 已 经 对 超过 5000 位 生命 科学 家 讲解 了 统计 (与 R)， 
发 现 正面 反馈 的 主要 内 容 是 确保 参与 者 明白 他 们 已 经 做 了 什么 。 大 部 分 
参与 者 开始 的 心情 是 “向 我 展示 全 部 ”, 但 是 你 的 工作 是 改变 这 个 为 “理解 
所 有 内 容 ”。 

没有 人 想 去 学 习 五 天 的 R 课程 ,其 实 这 是 没有 必要 的 。 我 们 推荐 名 为 
“R 人 门 "的 三 天 课程 (一 天 八 个 小 时 ) 。 第 一 天 ,你 可 以 讲解 第 1.2 和 3 章 ， 
并 给 出 大 量 的 练习 。 第 二 天 ,介绍 基本 绘图 工具 (第 5 章 ), 并 且 根据 目的 
和 兴趣 ,你 可 以 在 第 三 天 选择 讲解 编写 函数 (第 6 章 ) 或 者 高 级 绘图 工具 
(第 7 和 第 8 章 )。 第 9 章 包含 常见 的 错误 ,这 些 与 每 个 人 都 有 关 。 

如 果 你 想 更 快 ,你 可 能 结束 时 会 面 对 温 丧 的 参与 者 。 我 们 推荐 的 三 天 
课程 里 不 包括 统计 。 如 果 你 需要 讲解 统计 ,课程 应 该 扩展 到 五 天 。 


1.11.2 如 果 你 是 有 一 定 R 知识 的 感 兴趣 的 读者 


我 们 建议 阅读 第 1.2、3 和 5 章 。 接 下 来 学 习 什 么 依赖 于 你 的 兴趣 。 你 
想 编写 你 自己 的 函数 吗 ? 第 6 章 是 与 之 相关 的 。 如 果 你 想 生成 出 色 的 图 
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形 ? 这 种 情况 下 ,请 阅读 第 7 和 第 8 章 - 
1.11.3 如 果 你 是 一 个 R 专家 

如 果 你 有 使 用 R 的 经 历 ,我 们 推荐 从 第 6.8 和 9 章 开 始 。 
1.11.4 如果 你 比较 害怕 R 


“我 的 同事 曾 尝试 使 用 R 并 发 现 它 是 一 个 梦 属 。 它 超过 了 很 多 生物 学 
家 的 能 力 除非 有 很 好 的 数学 知识 !" 这 是 从 我 们 电子 邮件 的 收 件 箱 里 逐 字 
摘录 的 ,我 们 听 到 了 许多 意见 和 建议 。R 是 一 个 语言 , 像 意 大 利 语 、 荷 兰 
语 \ 西 班 牙 语 、 英 语 或 者 汉语 。 一 些 人 有 学 习 语言 的 天 赋 , 一 些 人 可 能 需要 
一 些 努 力 ,另外 一 些 人 可 能 觉得 语言 是 一 个 梦 厦 。 使 用 R 需要 你 学 习 一 门 
语言 。 如 果 你 尝试 走 得 更 快 ,使 用 错误 的 阅读 材料 或 者 错误 的 教师 ,那么 ， 
掌握 民 将 会 遇 到 一 些 挑战 。 

遇 到 术语 “数学 的 "是 因为 R 是 按照 逻辑 步骤 来 处 理 任务 。 你 必须 有 
组 织 有 结构 地 使 用 R 来 工作 。 但 是 在 这 一 切 基础 之 上 外 加 一 本 好 书 是 必 
要 的 。 

然而 ,我 们 也 希望 是 诚实 的 。 在 我 们 的 课程 期 间 , 一 小 部 分 参加 我 们 
课程 的 “典型 的 "科学 家 不 是 注定 要 用 R 工作 的 。 在 一 天 的 R 培训 后 有 一 
些 人 感觉 是 失败 的 。 也 有 人 告诉 我 们 他 们 以 后 不 再 使 用 R。 幸运 的 是 ,这 
些 人 只 占 很 小 的 百分比 。 如 果 你 是 其 中 的 一 位 ,我 们 推荐 软件 包 驱 动 的 图 
形 用 户 界面 ,如 SPLUS 或 SAS。 这 些 是 比较 贵 的 软件 。 一 个 可 供 选择 的 
方法 是 尺 里 (在 R 网 站 ,从 菜单 其 它 里 选择 相关 项 目 ,然后 点 击 R GUIs) 的 
图 形 用 户 界面 ,但 是 这 些 不 能 给 你 R 中 可 利用 的 全 部 范围 的 选项 。 


1.12 引用 R 和 引用 程序 包 


你 可 以 获得 功能 非常 强大 的 免费 程序 包 , 因 此 识别 它 是 应 该 的 。 为 了 
引用 R 或 其 它 你 使 用 的 任何 相关 的 包 ,在 R 里 输入 : 


> citation() 


To cite R in publications use: 

R Development Core Team (2008). R: A language and 
environment for statistical computing. R Foundation for 
Statistical Computing, Vienna, Austria. 

ISBN 3-900051-07-0, URL http://www.R-project.org. 


We have invested a lot of time and effort in creating R, 
please cite it when using it for data analysis. See also 
"citation("pkgname")’ for citing R packages. 
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对 于 引用 程序 包 , 例 如 格子 包 , 你 应 该 输入 ; 


> citation("lattice") 


它 会 给 出 如 何 引用 该 包 的 全 部 详细 信息 。 在 本 书 里 ,我 们 使 用 不 同 的 
包 ; 我 们 提 及 和 引用 它们 如 下 : foreign (R 核心 成 员 等 , 2008)， lattice 
(Sarkar, 2008), MASS (Venables 和 Ripley, 2002), nlme ( Pinheiro 等 ， 
2008) ,plotrix(Lemon 等 ,2008), RODBC(Lapsley,2002;Ripley,2008), 和 Pp.27 
vegan(Oksanen 等 ,2008)。 参 考 R 本 身 是 :R 开发 核心 小 组 (2008)。 请 注 
意 根据 使 用 R 版 本 的 不 同 , 一 些 引 用 可 能 会 有 区 别 。 


1.13 ”我们 学 习 了 哪些 R 函数 ? 


每 章 我 们 用 一 节 总 结 该 章 里 介绍 的 R 函数 。 本 章 我 们 只 学 习 了 一 些 
命令 。 这 里 我 们 不 重复 发 光 格子 函数 和 企 网 绘图 函数 ,因为 我 们 只 是 用 它 
来 做 示例 。 表 1. 1 列 出 了 我 们 本 章 所 讨论 的 函数 。 


表 1.1 第 1 章 所 介绍 的 R 函数 





函 数 功 能 示 例 
? 访问 帮助 文件 ? boxplot 
提 添加 注释 # Mdd your comnents here 
boxplot 生成 念 形 图 boxplot(y) boxplot(y~factor(x)) 
log 自然 对 数 1og(2) 
1ogl10 以 10 为 底 的 对 数 。 1og10(2) 
library 载 人 包 library(MASS) 
setwd 设置 工作 目录 setwd("C: /AnyDirectory") 
q 关闭 RR qa) 


citation 


提供 对 R 的 引用 


citation() 
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R 中 的 数据 输入 


在 接 下 来 的 这 一 章 , 我 们 会 讲述 如 何 把 数据 录入 R, 并 把 数据 系统 地 转 
化 为 标量 ( 单 值 )、 向 量 ,和 矩阵、 数据 框 或 者 列表 。 同 时 还 将 阐述 如 何 从 
Excel ascii 文件 ,数据库 和 其 它 统计 程序 中 载 人 数据。 


2.1 R 中 的 第 1 步 


2.1.1 小 型 数据 库 中 的 数据 录入 
我 们 从 把 数量 足够 小 的 数据 录入 到 R 中 的 工作 开始 。 使 用 这 样 一 个 
数据 库 ( 康 涅 狄 格 大 学 Chris Elphick 未 公布 的 数据 ), 它 来 自 大 概 1100 只 
沙 鸥 的 7 种 身体 测量 数据 (如 头 和 翅膀 的 大 小 、 躁 骨 的 长 度 、 体 重 等 等 )。 
为 了 方便 起 见 ,我 们 仅 使 用 其 中 8 只 鸟 的 “种 形态 参数 ( 见 表 2. 1) 。 
表 2.1 8 只 鸟 的 形态 参数 。 符 号 NA 代表 缺失 值 ,被 测量 的 参数 有 翅膀 的 长 度 
(可 弦 的 长 度 ) , 盖 的 尺寸 ( 踊 骨 尺寸 ), 头 的 尺寸 (从 鸟 嘴 到 后 脑 ) 和 体重 
加 弦 躁 骨 委 体重 
59 22.3 31.2 9.5 








55 19.7 30.4 13.8 
53.5 20.8 30.6 14.8 
55 20.3 30.3 15.2 
52.5 20.8 30.3 15.5 
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续 表 2.1 
要 弦 躁 骨 头 体重 
57.5 21.5 30.8 15.6 
53 20.6 32.5 15.6 
55 21.5 NA 15.7 


将 数据 录入 R 最 简单 的 一 个 方法 就 是 以 标量 ( 仅 含 一 个 值 的 变量 ) 的 
形式 将 数据 一 一 输入 ,但 此 方法 比较 繁琐 。 比 如 ,将 翅膀 长 度 的 前 五 个 观 
察 值 录入 R, 需 输入 : 

a <- 59 

b <- 55 

c <- 53.5 

d <- 55 

e <- 52.5 

程序 中 ,符号 “<- "可 以 用 " =" 代替。 并 且 , 这 些 命令 可 以 直接 从 文本 
编辑 器 中 复制 到 R 中 ,不 需要 其 它 改变 。 此 时 , 若 要 查看 R 的 计算 结果 ,可 
以 输入 “a”, 然 后 硕 回 车 键 。 

>a 

[1] 59 

正如 我 们 所 输入 的 ,“a” 的 值 为 59。 这 种 方法 的 问题 是 大 量 的 数据 会 
很 快 用 完 所 有 的 字母 符号 ,并 且 , 以 a\b,c 等 字母 作为 变量 名 对 刻画 变量 各 
表示 什么 意义 是 没有 多 大 帮助 的 。 因 此 ,我 们 可 以 使 用 如 下 的 变量 名 : 
> Wingl <- 59 
Wing2 <- 55 
Wing3 <- 53.5 
Wing4 <- 55 
Wing5 <- 52.5 
若 要 输入 剩余 的 数据 , 则 需要 更 多 的 变量 名 。 在 改进 变量 名 的 处 理 方 
法 前 ,我 们 先 来 讨论 对 于 这 些 变量 的 操作 。 一 旦 定义 了 一 个 变量 并 且 对 其 
赋值 后 ,我 们 就 可 以 用 它 来 进行 计算 ,例如 ,下 面 这 些 都 是 有 效 的 命令 : 
> sqrt (Wing1) 
> 2 * Wingl 
> Wingl + Wing2 
> Wingl + Wing2 + Wing3 + Wing4 + Wing5 
> (Wingl + Wing2 + Wing3 + Wing4 + Wing5) / 5 

此 时 ,虽然 R 进行 了 计算 ,但 它 并 没有 存储 结果 ,所 以 ,最 好 定义 新 的 
变量 : 


vvvvv 


vvvv 
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SO.wingl <- sqrt (Wing1) 
Mul.W1 <- 2 * Wingl 
Sum.12 <- Wingl + Wing2 
SUM12345 <- Wingl + Wing2 + Wing3 + Wing4 + Wing5 
av <- (Wingl + Wing2 + Wing3 + Wing4 + Wing5) / 5 
当然 ,以 上 这 些 变量 名 仅仅 是 示范 ,你 可 以 使 用 任何 名 字 来 代替 ,不 过 
需要 注意 ,“. "也 是 变量 名 的 一 部 分 。 我 们 建议 使 用 能 帮助 记忆 具体 代表 
什么 的 变量 名 ,例如 ,SQ. wingl 表示 第 一 只 鸟 翅膀 长 度 的 平方 根 。 有 时 ,在 
选择 变量 名 的 时 候 需 要 一 定 的 想象 力 。 但 是 注意 ,一 些 符号 是 不 允许 出 现 
在 变量 名 中 的 ,例如 “ft ,$ ,%,,* ,十 ,一 ,( ),[ ], 间 ,1,?,<,>” 等 ,因为 
这 些 符号 中 的 大 部 分 都 是 运算 符 ,比如 乘法 . 乘 宕 等 等 。 

根据 如 上 所 述 ,如 果 定 义 了 
> SQ.wingl <- sqrt (Wing1) 
若 要 显示 SQ. wingl 的 值 ,只 需 输 入 ， 
> sQ.wingl 
[1] 7.681146 

或 者 你 可 以 把 需要 执行 的 命令 放 在 圆 括 号 内 ,R 将 会 即刻 计算 出 结 
果 : 
> (SQ.wingl <- sqrt (Wing1)) 
[1] 7.681146 
2.1.2 应 用 c 函数 连接 数据 


如 上 所 述 , 对 于 4 种 形态 参数 的 8 个 观测 值 ,我 们 需要 32 个 变量 名 。 
而 R 允许 在 一 个 变量 中 存储 多 个 值 ,这 个 任务 由 c( ) 函数 来 完成 ,这 里 
代表 连接 (Concatenate) 。 它 可 以 这 样 使 用 ， 


> Wingcrd <- c(59, 55, 53.5, 55, 52.5, 57.5, 53, 55) 


这 里 你 可 以 在 逗号 的 任意 一 边 加 上 空格 以 增加 代码 的 可 读 性 ,当然 ， 
也 可 以 在 “十 "或 “一 一 "任意 一 边 加 空格 。 总 的 来 说 ,只 要 能 使 代码 便于 识 
别 , 这 些 做 法 都 是 允许 的 。 

需要 注意 的 是 这 里 <( ) 函数 使 用 的 是 圆 括号 ( ), 不 是 方 括号 [ ] 或 者 
花 括号 { ) ,它们 具有 其 它 的 作用 。 

当然 ,如 前 面 所 讲 , 你 也 可 以 把 这 些 命令 从 其 它 文本 粘贴 到 R 中 。 如 
果 需 要 查看 结果 ,只 需要 输入 Wingcrd, 再 回 车 就 可 以 了 : 


> Wingcrd 
[1] 59.0 55.0 53.5 55.0 52.5 57.5 53.0 55.0 


vvvvv 
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这 时 ,c( ) 函 数 生成 了 一 个 长 度 是 8 的 向 量 。 如 果 需 要 查看 Wingcrd 
的 第 一 个 值 ,可 以 输入 Wingcrd[1], 然 后 回 车 : 


> Wingcrd [1] P.32 
[1] 59 


结果 是 59, 如 果 需 要 查看 Wingcrd 的 前 五 个 值 ,可 以 输入 : 
> mingcrd [1 : 5] 
[1] 59.0 55.0 53.5 55.0 52.5 

如 果 需 要 查看 除了 第 二 个 值 之 外 的 其 它 值 ,可 以 输入 ; 
> Wingcrd [-2] 
[1] 59.0 53.5 55.0 52.5 57.5 53.0 55.0 

可 以 看 到 , 负 号 删除 了 这 个 值 。R 有 很 多 内 置 的 函数 ,最 基本 的 有 例 
如 sum,mean,max,min,median,var 和 sd 等 等 ,可 以 通过 如 下 的 方法 来 使 用 
它们 ， 


> sum(Wingcrd) 
[1] 440.5 


显然 ,我 们 可 以 将 这 个 和 存在 一 个 新 的 变量 中 ， 


> S.win <- sum(Wingcrd) 
> S.win 
[1] 440.5 


再 次 强调 ,这 里 “. "也 是 变量 名 的 一 部 分 。 现 在 ,我 们 来 将 表 2. 1 中 剩 
下 的 3 个 形态 参数 输入 R。 这 一 步 比 较 麻烦 ,可 以 选择 先 将 它们 输入 到 一 
个 文本 编辑 器 ,再 粘贴 到 R 中 的 办 法 。 


> Tarsus <- c(22.3, 19.7, 20.8, 20.3, 20.8, 21.5, 20.6, 


21.5) 
> Head <- c(31.2, 30.4, 30.6, 30.3, 30.3, 30.8, 32.5, 
NA) 
> Wt <- c(9.5, 13.8, 14.8, 15.2, 15.5, 15.6, 15.6, 
15.7) 


这 里 我 们 付出 了 额外 的 空间 , 即 每 一 个 命令 都 占用 了 两 行 ,只 要 你 在 
第 一 行 结束 的 时 候 使 用 反 锋线 或 者 是 逗号 ,R 都 能 识别 这 是 一 条 命令 。 

一 般 来 说 ,R 中 的 变量 名 最 好 使 用 大 写字 母 开头 ,这 样 可 以 避免 将 它 
和 一 些 内 部 函数 名 混淆, 因为 大 部 分 内 部 函数 都 不 是 以 大 写字 母 开 头 的 ， 
例如 ,“head” 是 R 中 的 一 个 内 部 函数 ( 见 ? head) ,所 以 这 里 我 们 需要 使 用 变 
基 名 Head。 如 果 还 不 放心 的 话 , 可 以 键入 ? Head, 如 果 出 现 帮助 文件 的 话 ， 
你 就 需要 另 换 一 个 变量 名 了 。 


P.33 
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需要 注意 的 是 这 里 有 一 只 鸟 的 头 的 尺寸 是 没有 测量 的 ,我 们 用 NA 来 
表示 ,这 时 如 果 调 用 内 部 函数 ,NA 的 出 现 可 能 导致 计算 结果 的 错误 ,例如 : 


> sumfHead) 
[1] NA 


当然 ,调用 其 它 如 meanvminvmax 等 函数 会 得 到 同样 错误 的 结果 。 为 了 
弄 清楚 为 什么 得 到 这 样 的 错误 结果 ,可 以 键入? sum, 在 sun 的 帮助 文件 中 
我 们 得 到 了 如 下 的 相关 内 容 。 


sum(..., na.rm = FALSE) 


If na.rm is FALSE, an NA value in any of the arguments 
will cause a value of NA to be returned, otherwise NA 
values are ignored. 


显然 可 以 看 到 ,在 向 量 中 如 果 有 一 个 缺失 值 的 话 ,默认 选项 “na. rm = 
FALSE" 将 会 导致 R 函数 sum 返回 NA(rm 表示 移 除 (remove)) ,为 了 避免 这 
种 情况 ,我 们 可 以 使 用 "na. rm = TRUE”， 
> sum(Head, na.rm = TRUE) 

[1] 216.1 

此 时 , 剩 下 7 个 值 的 和 就 被 返回 了 ,同样 ,可 以 用 此 方法 来 处 理 mean， 
minvmaxvmedian 等 函数 。 在 大 部 分 电脑 上 ,你 可 以 使 用 na. ra = T 来 代 在 
na. rm = TRUE。 然 而 ,由 于 我 们 面 对 教 室内 装 有 相同 操作 系统 运行 相同 R 
版 本 的 电脑 时 ,有 一 些 电脑 也 对 na. rn = T 指 令 提示 错误 ,所 以 ,还 是 建议 
使 用 na. rm ~ TRUE 指令 。 

在 R 中 使 用 内 部 函数 前 最 好 查看 一 下 相应 的 帮助 文件 ,以 确保 你 知道 
这 个 函数 如 何 处 理 缺 失 值 ,因为 要 把 所 有 函数 处 理 缺 失 值 的 方法 都 记 住 是 
不 太 可 能 的 ,有 些 函 数 使 用 na. rn, 有 些 使 用 na. action, 而 有 些 使 用 其 它 的 
名 式 。 

至 此 ,我 们 已 经 完成 了 4 个 变量 的 输入 ,并 且 使 用 了 一 些 简单 的 函数 , 例 
如 meanvminvmax 等 。 接 着 ,我 们 将 考虑 如 何 连接 这 4 个 变量 中 的 数据 :(1)c， 
cbind 和 rbind 函数 ;(2)matrix 和 vector 函数 ;(3) 数 据 框 ;(4) 列 表 。 


入 练习 使 用 c 和 sun 函数 完成 2. 4 节 的 习题 1。 


2.1.3 使 用 c,cbind 和 rbind 结合 变量 
我 们 已 经 有 了 4 列 数据 ,每 列 含 有 8 只 鸟 的 观察 值 ,这 4 列 数据 分 别 以 
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变量 Wingcrd,Tarsus,Head 和 了 几 来 标记 。c 函数 可 以 用 来 连结 这 些 数据 ， 
同时 连结 这 些 数据 中 的 8 个 值 ,具体 操作 如 下 : 
> Birdpata <- c(Wingcrd, Tarsus, Head, Wt) 


我 们 使 用 了 变量 名 BirdData, 而 没有 使 用 data, 因 为 data 是 R 中 的 一 
个 内 部 函数 ( 见 ? data), 这样 做 可 以 避免 覆盖 原 函 数 data 的 值 。 键入 
BirdData, 并 回 车 ,可 以 看 到 这 条 命令 的 结果 : 
> BirdData 
[1] 59.0 55.0 53.5 55.0 52.5 57.5 53.0 55.0 22.3 
[10] 19.7 20.8 20.3 20.8 21.5 20.6 21.5 31.2 30.4 
[19] 30.6 30.3 30.3 30.8 32.5 NA 9.5 13.8 14.8 
[28] 15.2 15.5 15.6 15.6 15.7 
BirdData 是 -- 个 长 度 为 32(4X8) 的 单个 向 量 ,符号 [1].[10].[19] 和 
[28] 表 示 新 的 一 行 的 第 一 个 元 素 的 索引 编号 ,根据 电脑 显示 器 的 大 小 不 同 
这 些 编号 在 不 同 的 电脑 上 可 能 有 所 不 同 , 你 不 需 理会 这 些 数字 。 
此 时 ,R 将 包含 缺失 值 的 32 个 观察 值 生 成 了 一 个 单个 向 量 , 并 没有 区 
分 这 些 值 都 属于 哪 一 个 变量 (前 8 个 值 属 于 变量 Wingcrd, 第 二 组 8 个 值 属 
于 变量 Tarsus 等 等 )。 为 了 实现 这 一 点 ,我 们 可 以 生成 一 个 长 度 是 32 的 向 
量 , 命 名 为 1d( 表 示 “identity”) ,给 它 赋 如 下 这 些 值 。 
> Id <- cfl，1，1，1，1，1，1，1，2，2，2，2，2，2，27 
27 3 3s 3 3 3 3 3 hs ds ds bs de hs 4 4) 
> Id 
本 
[24] 344444444 
相对 于 BirdData,R 可 以 使 Id 向 量 在 一 行 中 显示 更 多 的 数字 ,只 出 现 
了 [1] 和 [24] 两 个 索引 编码 ,这些 索引 编码 在 此 时 是 完全 不 相关 的 。Id 向 
量 的 作用 是 指出 具有 相似 Id 值 的 观察 值 属于 同一 种 形态 变量 。 然 而 , 当 
针对 大 数据 库 的 时 候 , 生 成 这 样 的 一 个 向 量 是 很 费时 间 的 ,幸运 的 是 ,R 具 
有 简化 这 个 过 程 的 函数 ,我 们 需要 的 函数 是 重复 地 输入 值 1 一 4, 每 个 8 次 : 


> Id <- rep(c(1l, 2, 3, 4), each = 8) 

>Id 
[11111111 1 22 2 2025303309 3 
[24] 3 44444444 


这 个 函数 产生 了 上 述 相同 的 结果 ,符号 rep 代表 重复 (repeat) , 它 的 使 
用 还 可 以 简化 为 : 
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> Id <- rep(1 : 4, each = 8) 

> Id 

I 了 人 失语 当 加 省 当时 六 

[24] 344444444 

这 和 前 面 的 结果 都 是 相同 的 ,我 们 可 以 通过 键入 如 下 的 指令 来 查看 

1 : 4 命令 的 作用 : 

>1:4 
将 出 现 

可 1 主流 法 


显然 ,符号 :并 不 是 除 号 的 意思 (在 其 它 程序 包 中 其 具有 相同 的 意义 )。 
此 外 ,你 还 可 以 使 用 seq 函数 来 实现 这 个 目的 ,例如 ,命令 
> a <- seq(from = 1, to = 4, by = 1) 
>a 
同样 可 以 产生 如 下 序列 ， 
[1] 1234 


因此 ,对 于 前 面 所 述 的 鸟 类 的 观察 值 ,我 们 同样 可 以 使 用 如 下 的 命令 ， 
> a <- seq(from = 1, to= 4 by -了 1) 
> rep(a, each = 8) 
[D11111111222222223333333 
[24] 344444444 
rep 函数 使 得 “a" 中 的 每 个 数字 重复 了 8 次 。 此 时 ,你 可 能 认为 我 们 使 
用 了 过 多 的 方法 ,从 而 使 事情 变 得 无 亩 的 复杂 起 来 。 但 是 ,在 R 中 一 些 函 
数 的 使 用 需要 提供 类 似 于 表 2. 1 那样 的 数据 (例如 ,对 于 主 成 分 分 析 或 多 
维 尺度 分 析 的 多 元 分 析 活 数 ) ,而 另 一 些 函数 的 使 用 需要 提供 一 个 单独 向 
量 和 识别 这 组 观察 值 的 一 个 变量 (例如 上 述 的 Id) ,这 样 的 函数 主要 包括 
-检验 , 单 因子 方差 分 析 , 线 性 回归 ,以 及 一 些 作 图 工具 ,如 lattice 包 中 
的 xyplot( 见 第 8 章 )。 所 以 ,熟练 地 使 用 rep 函数 将 可 以 节省 很 多 时 间 。 
至 此 ,我 们 仅仅 实现 了 数字 的 连结 ,假如 我 们 想 生 成 一 个 长 度 为 32 的 
向 量 "Td”, 这 个 向 量 包含 了 单词 "Wingcrd"8 次 ,“Tarsus”8 次 ,等 等 。 我 们 
可 以 先 产生 一 个 名 为 varNames 的 新 变量 ,这 个 变量 包含 了 前 面 所 提 到 的 4 
个 形态 参数 : 
> VarNames <- c("Wingcrd", "Tarsus", "Head", "Wt") 
> VarNames 
[1] “Wingcrd" "Tarsus" "Head" "Wt" 


注意 这 些 都 只 是 名 称 ,而 不 是 含有 数值 的 变量 。 然 后 ,我 们 再 利用 rep 函数 
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来 生成 所 需要 的 向 量 : 


> Id2 <- rep(VarNames, each = 8) 

> Id2 
[1] “Wingcrd" "Wingcrd" "Wingcrd" "Wingcrd" 
[5] "Wingcrd" "Wingcrd" "Wingcrd" "Wingcrd" 
[9] "Tarsus" "Tarsus" "Tarsus" "Tarsus" 
[13] "Tarsus" "Tarsus" "Tarsus" "Tarsus" 






[17] "Head" "Headn "Head" "Headn 
[21] "Head" "Head" "Head" "Head™ 
[25] "wt" ts i "Wt" 
[29] "wt" "Wt™ "wt" "wt" 


这 里 Id2 是 一 个 被 赋予 了 具有 固定 顺序 的 名 字 的 字符 串 , 它 和 Id 的 区 
别 仅仅 是 所 包含 内 容 的 名 称 不 同 而 已 。 注 意 这 里 不 能 丢掉 "each = 
则 ,你 将 得 到 : 


> rep(VarNames, 8) 

[1] "Wingcrd" "Tarsus" "Head" "Wt" 

[5] "Wingcrd" "Tarsus" "Head" "Wt" 

[9] "Wingcrd" "Tarsus" "Head" "Wt™ 
[13] "Wingcrd" "Tarsus" "Head" "Wt" 
[17] "Wingcrd" "Tarsus" "Head" "Wt" 
[21] "Wingcrd" "Tarsus" "Head" "Wt" 
[25] "Wingcrd" "Tarsus" "Head" "Wt" 
[29] "Wingcrd" "Tarsus" "Head” "Wt" 


它 是 将 整个 包含 4 个 变量 名 的 向 量 VarNanes 重复 循环 了 8 次 ,并 不 是 
这 里 我 们 所 要 的 结果 。 

< 函数 是 我 们 结合 数据 或 者 变量 的 一 种 选择 , 另 一 种 选择 是 cbind 函 
数 , 它 的 作用 是 将 所 结合 的 变量 以 列 的 形式 输出 ,例如 ,我 们 将 cbind 函数 
的 输出 存储 在 变量 2 中 ,然后 键入 2Z 并 回 车 ,将 看 到 以 列 的 形式 显示 的 数 
值 : 








> 2 <- chind(Wingcrd, Tarsus, Head, Wt) 
多 洛 
Wingcrd Tarsus Head Wt 
[1,] 590 AR 9.5 
[2,] 55.0 19.7 30.4 13.8 
[3,] ss3.5 20.8 30.6 14.8 
[4, 7708 550 20:9930330 5.2 
Cir 2 20.8 30.3 15.5 
[67] “S57.5 21:5 30.8 15.6 
[7,] 53.0 20.6 32.5 15.6 


{8,] 55.0 21:5 NA 15.7 
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当 我 们 有 某 些 特殊 要 求 的 时 候 ,这 样 输出 数据 将 是 很 必要 的 ,例如 , 需 
要 做 主 成 分 分 析 时 。 假 设 需要 访问 z 的 第 一 列 , 则 可 以 使 用 命令 2[,1]: 
> 2[, 1] 
[1] 59.0 55.0 53.5 55.0 52.5 57.5 53.0 55.0 
同样 ,也 可 以 使 用 : 


> '2[1 : 8, 1] 
[1] 59.0 55.0 53.5 55.0 52.5 57.5 53.0 55.0 
结果 是 一 样 的 。 如 需 访问 第 二 行 , 则 可 以 输入 : 


> 2[2, J 
Wingcrd Tarsus Head Wt 
55.0 19.7 30.4 13.8 


也 可 以 输入 : 


> 2Z[2, 1:4] 

Wingcrd Tarsus Head Wt 
55.0 19.7 30.4 13.8 
如 下 所 列 的 命令 都 是 有 效 的 。 


2Z[1, 1] 
2[,2:3] 

X <- 2[4, 4] 

Y <- 2l, 4] 

W <- 2Z[, -3] 

D <- 2{, cll, 3, 4)] 

E <- 2[, c(-1, -3)] 

第 一 条 命令 访问 的 是 第 一 只 鸟 的 Wingcrd 值 ;第 二 条 命令 给 出 的 是 第 
二 列 和 第 三 列 的 全 部 数据 ;X 表示 的 是 第 4 只 鸟 的 毗 值 iY 列 出 了 所 有 鸟 的 
Wt 值 。 负 号 在 这 里 表示 不 包含 所 描述 的 列 或 者 行 ,因此 ,WW 包含 的 是 除了 
Head 值 之 外 的 所 有 数据 。 我 们 还 可 以 利用 c 函数 来 访问 z 中 无 序 的 列 或 
者 行 ,也 就 是 说 ,D 包 含 了 Zz 中 第 一 、 第 三 和 第 四 列 的 数据 ,E 包含 了 除去 第 
一 列 和 第 三 列 的 数据 。 不 过 ,必须 保证 所 输入 的 下 标 值 没 有 超过 变量 允许 
的 范围 ,例如 ,2[8,4] 这 种 表示 是 有 效 的 ,但 是 z[9,5],z[8,6] 或 者 2[10， 
20] 都 是 没有 定义 的 (我 们 只 有 8 只 鸟 和 4 个 形态 参数 变量 ) ,如 果 你 输入 了 
这 些 命令 ,R 将 会 显示 如 下 的 错误 提示 : 

Error: subscript out of bounds 


如 果 想 知道 z 的 维 数 ,可 以 使 用 : 


vvvvvvv 
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> dimf2) 
[1] 8 4 

此 命令 的 输出 是 包含 了 两 个 元 素 的 一 个 向 量 : 分 别 表示 2 的 行 数 和 列 
数 。 你 还 可 以 通过 参考 nrow 和 ncol 的 帮助 文件 来 得 到 另外 的 可 以 实现 此 
功能 的 办 法 。 有 时 ,将 dim 函数 的 输出 存储 起 来 会 更 加 有 用 ,可 以 使 用 


> n <- dim(2) 
>n 
[1] 8 4 


或 者 , 若 仅 需要 存储 2 的 行 数 ,可 以 使 用 


> nrow <- dim(2) [IJ 
> 了 
[1] 8 
相 比 于 nrow, 可 能 以 zrow 作为 变量 名 会 更 合适 。 与 cbind 函数 将 变 
量 以 列 的 形式 进行 整理 的 功能 类 似 ,rbind 函数 具有 将 数据 以 行进 行 结合 
的 作用 ,我 们 可 以 这 样 使 用 它 : 
> 22 <- rbind(Wingcrd, Tarsus, Head, Wt) 
> 22 
[11] [,2] [,3] [,4] [,5] [,6] [,7] [,8] 
Wingcrd 59.0 55.0 53.5 55.0 52.5 57.5 53.0 55.0 
Tarsus 22.3 19.7 20.8 20.3 20.8 21.5 20.6 21.5 
Head 31.2 30.4 30.6 30.3 30.3 30.8 32.5 NA 
Wt 9,5 13.8 14.8 15.2 15.5 15.6 15.6 15.7 
这 些 数据 和 前 面 所 讲 的 是 相同 的 ,只 不 过 行 表示 形态 变量 而 列表 示 
与 ， 
此 外 ,edit 函数 和 fix 函数 都 是 可 以 对 2 或 者 22 进行 操作 的 有 用 的 
工具 ,具体 的 使 用 方法 可 以 参考 帮助 文件 。 
- 练习 使 用 c 和 cbind 函数 完成 2. 4 节 的 习题 2, 这 个 习题 使 用 的 
是 一 个 流行 病 学 数据 库 。 


2.1.4 使 用 vector 函数 结合 数据 
为 了 避免 引入 过 多 的 信息 ,我 们 在 前 面 的 学 习 中 没有 涉及 到 vector 函 
数 ,初学 者 可 以 跳 过 这 一 部 分 内 容 。vector 函数 的 作用 与 c 函数 类 似 , 它 


可 以 用 来 代替 < 函数 。 假 如 我 们 要 在 R 中 生成 一 个 长 度 为 8, 包含 了 所 有 
8 只 鸟 的 Wingcrd 数据 的 一 个 向 量 ,我 们 可 以 像 如 下 这 么 做 。 


P.40 
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W <- vector(length = 8) 

W[1] <- 59 

W[2] <- 55 

W[3] <- 53.5 

W[4] <- 55 

W[5] <- 52.5 

W[6] <- 57.5 

W[7] <- 53 

W[8] <- 55 

如 果 在 第 一 条 命令 之 后 直接 键入 W, 你 将 会 得 到 一 个 FALSE 值 的 向 
量 ,所 以 ,必须 在 所 有 元 素 的 值 被 输入 之 后 再 刍 和 人 Wi: 

> 

[1] 59.0 55.0 53.5 55.0 52.5 57.5 53.0 55.0 


这 个 结果 和 使 用 < 函数 所 得 到 的 结果 是 一 样 的 ,而 vector 函数 的 优点 
是 我 们 可 以 事先 定义 向 量 的 长 度 ,这 一 点 有 时 是 很 有 用 的 ,例如 做 循环 运 
算 的 时 候 。 但 是 ,一 般 情 况 下 还 是 使 用 c 函数 结合 数据 比较 简单 

与 < 函数 的 输出 类 似 ,我 们 可 以 使 用 呀 1],WL1 : 4],w[2 : 6],W[ 一 2]， 
WLc(1,3,5)] 之 类 的 指令 来 访问 中 中 的 一 些 特定 的 元 素 ,同样 ,WL9] 这 样 的 
指令 将 会 输出 NA, 因 为 第 9 个 元 素 是 没有 定义 的 。 
和 练习 使 用 vector 函数 完成 2. 4 节 的 习题 3, 这 个 习题 使 用 的 是 

一 个 流行 病 学 数据 库 。 


vvvvvvvvv 


2.1.5 使 用 矩阵 结合 数据 ” 

初学 者 可 以 跳 过 这 一 部 分 内 容 。 

为 了 代替 向 量 显示 4 个 变量 Wingcrd,Tarsus,Head 和 Wt, 每 个 长 度 为 
8, 我 们 可 以 生成 一 个 8X4 的 矩阵 包括 上 述 数据 ,该 矩阵 的 生成 可 以 通过 
如 下 命令 : 


> Dmat <- matrix(nrow = 8, ncol = 4) 


> Dmat 

[1] [2)] [3] [,4] 
[| NA NA NA NA 
[2,] NA NA NA NA 
[3,] NA NA NA NA 
[4,] NA NA NA NA 
[5,] NA NA NA NA 
[6,] NA NA NA NA 
[7,] NA NA NA NA 


[8,] NA NA NA NA 
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起 初 ,我 们 想 将 这 个 矩阵 命名 为 D, 后 来 发 现 这 个 D 在 Tinn-R 中 是 蓝 
色 的 字体 ,这 表示 它 是 一 个 已 经 存在 的 函数 名 。 输 入 ? D, 可 以 看 到 它 表 示 
的 是 一 个 计算 导数 的 函数 ,为 了 不 覆盖 它 , 我 们 使 用 记号 “Dnat”, 这 里 
“mat" 代 表 和 矩阵 (matrix) 。 

注意 到 这 里 的 Dmat 是 一 个 仅 含有 NA 的 8X4 的 矩阵 ,需要 填 人 适当 
的 数值 ,我 们 可 以 这 样 来 进行 操作 : 


> Dmat[, 1] <- c(59, 55, 53.5, 55, 52.5, 57.5, 53, 55) 
> Dmat[, 2] <- c(22.3, 19.7, 20.8, 20.3, 20.8, 21.5, 


20.6, 21.5) 
> Dmat[, 3] <- c(31.2, 30.4, 30.6, 30.3, 30.3, 30.8, 
32.5, NA) 
> Dmat[, 4] <- c(9.5, 13.8, 14.8, 15.2, 15.5, 15.6, 
15.6, 15.7) 


这 种 情况 下 ,Dnat 的 值 是 以 列 的 形式 输入 的 ,同样 ,我 们 也 可 以 以 行 的 
形式 输入 。 键 人 Dnat ,可 以 得 到 与 使 用 cbind 函数 类 似 的 结果 ,只 是 Dmat 
没有 列 标签 。 


> nee 

1] [,2] [,3] [,4] 
{1,] $9 3 31.2 9.5 
[2,] 55.0 19.7 30.4 13.8 
[3,] 53.5 20.8 30.6 14.8 
[4,] 55.0 20.3 30.3 15.2 
[5,] 52.5 20.8 30.3 15.5 
[6,] 57.5 21.5 30.8 15.6 
[7,] 53.0 20.6 32.5 15.6 
[8,] 55.0 21.5 NA 15.7 


我 们 可 以 使 用 colnames 函数 来 给 Dmat 的 列 加 上 和 名称 : 


> colnames (Dmat) <- c("Wingcrd", "Tarsus", "Head", "Wt") 
> Dmat 


Wingcrd Tarsus Head Wt 
[1,] 59.0 22.3 31,20005 
[2,] 55.0 19.7 30.4 13.8 
[3,] 53.5 20.8 30.6 14.8 
[4] 55.0 。 2050353055v1 只 县 
[5,] 52.5 20.8 30.3 15.5 
[6) 57,500 0 0 nti 
[7,] 53.0 20.6 32.5 15.6 
18,] ss0) 21SP MA 157 


显然 ,rownames 函数 也 是 存在 的 ,可 以 参考 帮助 文件 来 查看 它 的 使 用 
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方法 。 

简 而 言 之 ,我 们 利用 矩阵 结合 数据 的 步骤 是 ,首先 ,定义 了 一 个 具有 特 
定 大 小 的 矩阵 ,然后 以 列 的 形式 对 其 元 素 进 行 了 赋值 。 注 意 ,在 赋值 之 前 
必须 先 定义 矩阵 。 当 然 , 你 也 可 以 一 个 元 素 一 个 元 素 的 进行 赋值 ,例如 ， 
> Dmat[1, 1] <- 59.0 
> Dmat[1, 2] <- 22.3 
等 等 ,但 是 ,这 样 做 会 很 浪费 时 间 。 如 果 我 们 的 数据 已 按照 变量 进行 了 分 
类 ,例如 Wingcrd,Tarsus,Head,Wt ,我们 可 以 不 使 用 常规 的 方法 进行 矩 阵 
的 定义 与 赋值 ,下 面 的 命令 会 更 加 好 用 : 


> Dmat2 <- as.matrix(cbind(Wingcrd, Tarsus, Head, Wt})) 


Dmat2 和 Dmat 是 完全 相同 的 。 这 种 使 用 不 止 一 种 方法 来 解决 这 个 问 
题 的 思想 是 很 必要 的 ,因为 有 些 函 数 需 要 使 用 和 矩阵 作为 输入 , 当 使 用 数据 
框 ( 见 下 一 节 ) 时 就 会 提示 错误 ,因此 ,如 果 能 掌握 这 种 思想 ,有 些 函数 , 例 
如 as,matrix,is.matrix( 这 些 函数 的 参数 如 果 是 矩阵 将 会 提示 TRUE, 否 
则 将 会 提示 FALSE) ,as. data. frane, is. date. frane 将 会 随时 给 你 提供 
很 大 的 帮助 。 

对 于 矩阵 A 和 8 专门 的 操作 符 还 有 进行 转 置 运算 的 t(A) ,进行 矩阵 乘 
法 的 A % * % B, 求 递 矩阵 的 solve(A) 等 。 


和 一 练习 处 理 2.4 节 习题 4 中 的 矩阵 。 


2.1.6 使 用 data. frame 函数 结合 数据 


目前 为 止 , 我 们 已 经 使 用 了 c,cbind,rbind,vector 和 matrix 函数 来 
结合 数据 ,另外 一 个 可 供 选择 的 就 是 数据 框 ,我 们 可 以 使 用 数据 框 结合 具 
有 相同 长 度 的 变量 ,而 数据 框 的 每 一 行 就 包含 有 同一 样本 的 不 同 观察 值 ， 
这 一 点 上 它 和 matrix 或 者 cbind 函数 是 比较 类 似 的 。 使 用 前 面 所 讲 的 乌 
的 4 种 形态 参数 ,可 以 这 样 生成 一 个 数据 框 : 


> Dfrm <- data. frame (WC = Wingcrd, 
TS = Tarsus, 
HD = Head, 
W = Wt) 

> Dfrm 

We TS HD 
1 59:0 22.3 _ 310009 
2 55.0 19.7 30.4 13.8 
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3 53.5 20.8 30.6 14.8 
4 55.0 20.3 30.3 15.2 
5 52.5 20.8 30.3 15.5 
6 57.5 21.5 30.8 15.6 
7 53.0 20.6 32.5 15.6 
8 55.0 21.5 NA 15.7 


data. frame 函数 在 这 里 创建 了 一 个 名 为 Dfrn 的 对 象 ,而 Dfrm 里 存储 
了 鸟 的 四 种 形态 参数 的 值 ,这 是 这 个 函数 最 基本 的 用 法 。 数 据 框 的 优点 是 
可 以 在 不 影响 原始 数据 的 基础 上 改变 数据 ,例如 ,我 们 可 以 在 数据 框 Dfrm 
中 结合 原始 (已 重 命名 ) 的 体重 值 和 体重 值 的 均 方 根 : 
> Dfrm <- data.frame (WC = Wingcrd, 
TS = Tarsus, 
HD = Head, 
We= Wt 
Wsq ~ sqrt (Wt)) 
在 数据 框 中 ,我 们 也 可 以 结合 数值 变量 .字符 串 和 因子 ,因子 是 一 种 名 
义 (分 类 ) 变 量 ,后 面 将 会 讨论 它 。 
需要 注意 ,在 函数 中 所 生成 的 变量 Wt 和 数据 框 Dfrm 中 的 变量 W 是 
两 个 不 同 的 实体 ,为 了 验证 这 一 点 ,我 们 移 除 变 量 Wt( 这 是 在 c 函数 中 输入 
的 变量 ): 
> rm(wt) 
如 果 此 时 再 键 人 Wt,R 将 会 提示 错误 : 
> wt 
Error: object "Wt" not found 
但 是 变量 W 却 还 存在 于 数据 框 Dfrm 中 ， 
> Dfrm$W 
[1] 9.5 13.8 14.8 15.2 15.5 15.6 15.6 15.7 
数据 框 较 之 cbind 函数 和 matrix 函数 具有 可 以 结合 不 同类 型 的 数据 
的 功能 ,所 以 , 它 的 使 用 还 是 很 必要 的 。 我 们 通常 这 样 使 用 数据 框 ,首先 ， 
我 们 向 R 中 输入 数据 ,主要 使 用 2. 2 节 的 方法 ,然后 ,对 数据 做 一 些 改变 
(例如 移 除 极端 值 , 应 用 变换 ,增加 分 类 变量 等 等 ), 再 将 数据 存 人 数据 框 中 
以 备 后 续 分 析 的 使 用 。 


2.1.7 使 用 list 函数 结合 数据 ” 


初学 者 可 以 跳 过 这 一 部 分 内 容 。 目 前 为 止 , 我 们 所 学 的 结合 数据 的 工 
具 都 是 生成 一 个 表格 ,表格 的 每 一 行 代表 一 个 样本 单元 (例如 一 只 鸟 )。 假 





42 第 2 章 及 中 的 数据 输入 





设 现在 需要 这 样 一 个 黑 盒 子 , 这 个 盒子 中 可 以 放 人 尽 可 能 多 的 各 种 各 样 的 
变量 :一 些 可 能 是 相关 的 ,一 些 可 能 具有 相似 的 维 数 ,一 些 可 能 是 向 量 , 一 
些 是 矩阵 ,一 些 可 能 是 包含 有 变量 名 的 字符 串 , 这 就 是 list 函数 可 以 完成 
的 功能 。 它 区 别 于 我 们 以 前 所 用 的 方法 的 最 大 不 同 点 就 是 它 的 每 一 行 不 
仅仅 代表 一 个 样本 单元 。 举 一 个 简单 的 例子 ,变量 x1,x2,x3 和 x4 都 包含 
有 一 些 数据 :xl 是 一 个 长 为 3 的 向 量 ,x2 包含 4 个 字符 ,x3 是 一 个 一 维 变 
量 ,x4 是 一 个 2X2 的 矩阵 ,而 所 有 的 这 些 变量 都 可 以 输入 到 一 个 list 函 
数 中 ， 

> x] <- c(1, 2, 3) 

x2 <- c("a", "b", "cn "d") 

3 

X4 <- matrix(nrow = 2, ncol = 2) 

x4[, 1] <- c(1, 2) 

x4[, 2] <- cf 3, 4) 

Y <- list(x1 = xl, x2 = x2, x3 = x3, x4 = x4) 
此 时 再 键入 Y, 可 以 得 到 以 下 结果 : 

人 


$x1 
[| 


$x2 
[1] waw "bw "en wd" 


Sx3 


[1] 3 
Sx4 

[1] [2 
[1,] 1 3 
[2,] 2 4 


所 有 包含 在 Y 中 的 信息 都 是 可 以 通过 键入 相应 的 指令 来 访问 的 , 例 
如 ,Y$ x1,Y$ x2 等 等 。 我 们 之 所 以 引入 list 函数 的 原因 是 因为 几乎 所 有 
R 中 的 函数 (比如 线性 回归 ,广义 线性 模型 ,: -检验 等 等 ) 的 输出 结果 都 是 
保存 在 列表 中 的 。 例 如 ,如 下 代码 应 用 线性 回归 模型 实现 将 翅膀 长 度 表示 
为 体重 的 函数 。 


> M <- lm(WC ~ Wt, data = Dfrm) 


我 们 不 需要 知道 ln 函数 具体 是 如 何 执行 的 ,或 者 R 是 怎样 实现 线性 
回归 的 (可 以 通过 键入 ? lm 查看 相应 的 帮助 文件 ) ,我 们 所 要 强调 的 是 R 将 
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线性 回归 函数 的 所 有 结果 都 存储 在 了 中 ,如 果 键 入 


> names (M) 

将 得 到 如 下 这 些 奇 特 的 输出 结果 : 

[1] "coefficients" "residuals" "effects" 
[4] "rank™ "fitted.values" "assign" 
F173 ox” "df.residual" "xlevels" 
[10] "call" "terms" "model™" 


我 们 可 以 通过 键 人 M$ coefficients,M $ residuals 等 命令 来 分 别 访 
间 coefficients,residuals 等 数据 。 所 以 ,可 以 说 是 一 个 包含 了 不 同类 型 
数据 的 列表 ,和 上 面 所 提 及 的 Y 是 类 似 的 。 比 较 好 的 一 点 是 R 提供 了 各 种 
各 样 的 函数 来 提取 所 需要 的 列表 中 的 信息 (比如 估计 值 ,p - 值 等 等 ), 具 体 
可 参考 lm 的 帮助 文件 。 

对 于 前 面 表 2. 1 所 给 出 的 乌 的 形态 参数 的 数据 ,由 于 其 每 一 行 都 表示 
同一 只 鸟 的 数据 ,所 以 将 其 存 人 一 个 列表 中 是 没有 多 大 的 意义 的 。 然 而 ， 
当 我 们 的 任务 是 生成 一 个 列表 , 表 中 需要 将 所 有 数据 放 在 一 个 长 向 量 中 ， 
还 需要 另 一 个 向 量 来 识别 这 些 变量 (例如 ID 的 作用 ) ,需要 一 个 8X4 的 矩 
阵 来 表示 这 些 数据 ,并 且 还 需要 一 个 包含 了 4 种 形态 参数 名 称 的 向 量 时 ， 
我 们 可 以 这 样 来 处 理 它 : 


> AllData <- list (BirdData = BirdData, Id = Id2, 2 = 2, 
VarNames = VarNames) 


结果 将 是 : 


> AllData 

$BirdData 

[1] 59.0 55.0 53.5 55.0 52.5 57.5 53.0 55.0 22.3 
[10] 19.7 20.8 20.3 20.8 21.5 20.6 21.5 31.2 30.4 
[19] 30.6 30.3 30.3 30.8 32.5 NA 9.5 13.8 14.8 
[28] 15.2 15.5 15.6 15.6 15.7 


$Id 

[1] "Wingcrd" "Wingcrd" "Wingcrd" "Wingcrd" 
[5] "Wingcrd" "Wingcrd" "Wingcrd" "Wingcrd" 
[9] "Tarsus" "Tarsus" "Tarsus" "Tarsus" 
[13] "Tarsus" "Tarsus" "Tarsus" "Tarsus" 
[17] “Head" “Head" "Head" "Head" 
[21] "Head" "Head" "Head" "Head" 
[25] "wt" "nt" "Nt" WE" 

[29] "Wt™ "at™ "nt" "tn 


P.45 
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$2 

Wingcrd Tarsus Head Wt 
[1,] 59.0 22.3 31.2 9.5 
[2,] 55.0 19.7 30.4 13.8 
[3,] 53.5 20.8 30.6 14.8 
[4,] 55.0 20.3 30.3 15.2 
[5,] 52.5 20.8 30.3 15.5 
[6,] 57.5 21.5 30.8 15.6 
[7,] 53.0 20.6 32.5 15.6 
[8,] 55.0 21.5 MA 15.7 
SVarNames 


[1]"Wwingcrd""Tarsus" "Head" "Wt" 

显然 ,以 这 种 形式 来 存储 数据 并 不 是 必须 的 ,我 们 仅 需要 其 中 一 种 就 
足够 了 。 但 是 ,这 种 多 样 的 存储 形式 为 我 们 将 来 在 这 些 数据 上 使 用 很 多 其 
它 的 函数 提供 了 方便 。 然 而 ,我 们 的 程序 设计 方式 还 是 仅 在 需要 的 时 候 对 
数据 进行 转化 。 

此 时 ,在 R 中 键 信 AllData, 就 可 以 看 到 我 们 在 这 一 部 分 所 涉及 的 大 部 
分 数据 格式 ,能 做 到 这 一 点 是 非常 不 错 的 。 

在 list 函数 中 不 能 使 用 "<-" 符 号 ,只 能 使 用 "=”。 图 2. 1 给 出 了 我 们 


结合 任意 尺寸 


大 小 的 数据 of) 


ae) 


[自理 数 所 并 将 其 
存 信 新 的 对 象 中 二 
vector() | | 事先 定义 大 小 
要 


data frame () matrx() ”| 隶 进 , 转 置 





图 2.1 各 种 数据 存储 方法 的 总 结 。 当 数据 由 cbind, matrix, 或 者 data. frane 
存储 时 假设 数据 的 每 一 行 代 表 同 一 种 观察 值 ( 比 如 一 个 样本 ) 
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迄今 为 止 所 学 的 数据 存储 方法 的 一 个 总 结 - 


练习 2.4 节 习 题 5, 此 题 考查 使 用 data. frame 和 list 命令 处 理 
流行 病 学 数据 库 。 


2.2 数据 的 载 人 


对 于 大 型 的 数据 库 , 像 我 们 前 面 所 讲 的 将 其 逐个 键入 R 中 是 很 不 现实 
的 。 而 学 习 一 个 新 程序 包 中 最 困难 的 就 是 如 何 载 人 数据 了 ,不 过 如 果 你 掌 
握 了 这 一 步 ,你 就 可 以 很 轻松 的 进行 其 它 操作 了 。 接 下 来 的 内 容 将 讲述 各 
种 各 样 的 载 人 数据 的 方法 ,我 们 将 数据 分 为 大 型 数据 库 和 小 型 数据 库 以 区 
别 对 待 , 并 考虑 它们 是 否 存储 于 Excel ascii 文本 文件 ,数据库 程序 ,或 者 其 
它 统计 包 中 。 


2.2.1 Excel 中 的 数据 载 入 


一 般 情况 下 有 两 种 将 数据 从 Excel( 或 电子 数据 表 、 数 据 库 程 序 ) 载 人 
R 的 方法 。 第 一 种 比较 简单 ,也 是 我 们 推荐 使 用 的 ,步骤 是 :(1) 将 Excel 中 
的 数据 准备 好 ,(2) 将 其 提取 到 制 表 符 分 隔 的 ascii 文件 中 ,(3) 关 闭 Excel， 
(4) 使 用 read. table 函数 将 数据 载 人 到 R 中 , 接 下 来 的 内 容 将 详细 介绍 这 
其 中 的 每 一 步 。 第 二 种 方法 是 一 个 专门 的 R 程序 包 ,RODBC, 它 可 以 访问 
Excel 中 选 定 的 行 和 列 。 应 该 注意 的 是 Excel 并 不 是 最 适合 于 处 理 大 型 数 
据 库 的 软件 ,因为 它 的 列 是 有 限制 的 。 


2.2.1.1 Excel 中 的 数据 准备 

为 了 简单 起 见 ,我 们 建议 将 数据 排列 为 样本 -变量 的 形式 ,也 就 是 说 ， 
列表 示 各 种 变量 , 行 表示 各 种 样本 、 观 察 值 .案例 .对象 或 者 其 它 你 称 之 为 
样本 单元 的 东西 。 以 NA( 大 写 ) 表 示 缺 失 值 ,一 般 最 好 以 Excel 中 的 第 一 
列 来 识别 样本 单元 ,第 一 行 作为 变量 名 。 与 前 面 的 叙述 一 致 ,最 好 避免 使 
用 包含 如 下 一 些 符号 的 名 称 :fy$,%%，,&，* (一 , 井 , 过， 
>，,/ |,[,],{, 和 } ,同样 ,也 要 吉 免 使 用 包含 空格 的 名 称 (字段 或 数值 ) 。 
尽量 使 用 简单 的 名 称 ,不 要 太 长 ,否则 将 会 使 图 表 中 因为 包含 太 长 名 字 而 
不 易 识 别 。 

图 2. 2 中 的 Excel 电子 数据 表 是 一 组 乌贼 的 性 腺 指数 (GSI, 即 与 身体 
总 重量 有 关 的 性 腺 重量 ) 的 数据 库 ( 来 自 英国 阿 伯 丁 大 学 Graham Pierce 的 
未 发 表 的 数据 资料 ) ,各 种 数据 均 测量 于 苏格兰 地 区 不 同年 月 捕获 的 乌贼 。 


P.47 
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图 2.2 拟 被 载 人 R 中 的 数据 库 在 Excel 中 的 前 期 准备 。 行 代表 个 体 (每 
一 行 表示 一 只 乌贼 ), 列 表示 不 同 的 变量 第 一 行 和 第 一 列 是 标 
签 , 均 不 含有 空格 ,并 且 没 有 空 的 数据 


2.2.1.2 数据 提取 到 制 表 符 分 隔 的 ascii 文件 

在 Excel 中 ,依次 进入 文件 -> 另存 为 -> 保存 类 型 (File -> Save As -> 
Save as Type) ,选择 文本 文件 ( 制 表 符 分 隔 ) ,将 图 2. 2 中 关于 乌贼 的 数据 提 
取 到 一 个 制 表 符 分 隔 的 ascii 文件 中 ,存储 目录 为 C:\RBook, 命 名 为 
squid. txt。Excel 文件 和 ascii 文件 都 可 以 从 本 书 的 主页 中 下 载 ,如 果 你 把 
它们 下 载 到 不 同 的 目录 下 , 则 需要 调整 相应 的 路 径 。 

在 这 一 步 中 建议 关闭 Excel 以 方便 其 它 程序 访问 新 生成 的 文本 文件 。 

警告 :在 某 些 情况 下 ,如 果 你 在 电子 数据 表 里 输入 了 注释 ,Excel 有 在 
ascii 文件 中 加 入 额外 一 些 全 是 NA 列 的 趋势 .在 R 中, 这些 列 将 会 以 NA 
出 现 , 为 了 避免 这 种 情况 的 发 生 , 在 提取 数据 前 先 删 除 这 样 的 列 。 

2.2.1.3 read. table 函数 的 使 用 

当 制 表 符 分 隔 的 ascii 文件 中 没有 空 内 容 或 者 没有 包含 空格 的 名 称 时 ， 
我 们 就 可 以 开始 将 数据 载 人 R 中 。 使 用 read. table 函数 ,其 基本 的 用 法 
如 下 : 
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> squid <- read.table(file = "C:\\RBook\\squid. txt", 
header = TRUE) 

这 个 命令 实现 了 把 数据 从 squid. tzt 文件 中 读 取 出 来 ,以 数据 框 的 形 
式 存储 到 Squid 中 。 我 们 强烈 建议 使 用 简单 .明确 的 变量 名 称 。 例 如 ,我 们 
不 建议 使 用 譬如 SquidNorthSeaMalesFemales 这 样 的 名 称 ,因为 你 很 容易 
将 它 写 错 ,导致 R 无 法 正确 执行 。 函 数 read. table 中 的 header = TRUE 选 
项 表示 第 一 行 包 括 了 标签 ,如 果 你 的 文件 中 没有 标签 ,可 以 将 它 改 为 
header = FALSE。 还 有 另外 一 种 识别 这 种 文本 文件 地 址 的 方法 , 它 是 : 
> squid <- read.table (file = "C:/RBook/squid.txt", 

header = TRUE) 

这 两 种 命令 的 区 别 在 于 斜 线 的 不 同 。 如 果 在 这 一 步 出 现 了 错误 信息 ， 
可 以 首先 检查 文件 名 和 目录 路 径 是 否 正确 。 我 们 强烈 建议 使 用 简单 的 目 
录 名 ,因为 我 们 曾 看 到 过 很 多 人 为 了 找 出 藏 于 150 一 200 个 字符 长 度 的 目 
录 名 中 的 一 个 错误 而 耽误 半 个 多 小 时 使 read. table 函数 不 能 运行 。 在 我 
们 的 示例 中 ,目录 名 的 结构 是 非常 简单 的 ,C:/RBook。 而 大 多 数 情况 下 , 目 
录 的 路 径 都 要 长 一 些 , 如 果 单纯 依靠 记忆 来 写 这 些 路 径 是 会 经 常 出 错 的 ， 
这 时 ,你 可 以 右 击 文件 squid. txt( 在 Windows 操作 系统 下 ) ,选择 属性 (图 
2.3)。 在 这 里 ,可 以 直接 把 整个 目录 路 径 ( 包 括 文件 名 ) 复 制 粘贴 到 R 的 文 
本 编辑 器 中 。 但 是 ,不 要 忘记 了 多 加 一 条 斜 线 \。 

如 果 你 使 用 的 名 称 含有 “My Files” ,一定 要 注意 这 里 面 的 空格 和 大 写 
字母 。 另 一 个 经 常 出 现 的 错误 就 是 小 数 点 字符 的 使 用 ,默认 情况 下 ,R 认 
为 ascii 文本 文件 中 的 数据 使 用 点 作为 小 数 点 ,事实 上 ,函数 read. table 的 
使 用 是 这 样 的 : 
> Squid <- read.table(file = "C:/RBook/squid.txt", 

header = TRUE, dec = ".") 

如 果 你 使 用 逗号 作为 小 数 点 ,应 该 将 最 后 一 个 选项 改 为 dec ="," ,并 
重新 执行 命令 。 

警告 :如 果 你 的 电脑 使 用 逗号 作为 小 数 点 ,并 且 你 的 数据 是 从 Excel 提 
取 到 制 表 符 分 隔 的 ascii 文件 中 的 ,那么 必须 使 用 dec ="," 选 项 。 但 是 ,如 
果 使 用 的 是 他 人 用 点 作为 小 数 点 生成 的 ascii 文件 ,那么 必须 使 用 dec = 
"." 选 项 。 例 如 ,这 本 书 的 主页 上 的 所 有 ascii 文件 都 是 以 点 作为 小 数 点 的 ， 
所 以 ,所 有 数据 库 被 载 人 的 时 候 都 必须 使 用 dec = "选项 ,哪怕 你 的 电脑 
是 以 逗号 作为 小 数 点 的 。 如 果 你 使 用 了 错误 的 设 定 ,R 将 会 把 所 有 的 数值 
数据 作为 分 类 变量 载 人 。 在 下 一 章 中 ,我 们 将 接触 到 str 函数 ,此 时 就 需要 
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图 2.3 文件 squid. txt 的 属性 。 文 件 名 是 squid. txt, 所 在 位 置 是 C:\Beokdata， 
你 可 以 选择 这 个 地 址 ,并 将 其 复制 粘贴 到 R 编辑 器 的 read. table 瑞 数 
中 ,在 Windows 损 作 系统 里 需 多 加 一 条 斜 线 \ 


先 验证 载 人 数据 的 格式 再 进行 操作 了 

如 果 变 量 名 中 含有 空格 ,并 且 你 按照 上 述 的 方式 使 用 了 read. table 函 
数 ,你 将 会 得 到 如 下 的 结果 (我 们 临时 在 Excel 里 将 变量 名 GSI 改 为 
G S T, 以 得 到 此 错误 结果 ) : 


Error in scan(file,what,nmax, sep,dec, quote, skip,nlines, 
na.strings,: line 1 did not have 8 elements 


R 此 时 会 对 每 一 行 元 素 的 数量 提出 质疑 ,对 此 ,一 个 很 简单 的 处 理 办 
法 是 移 除 Excel 中 名 称 或 数据 字段 中 的 空格 , 按 上 述 步 又 再 执行 一 遍 就 可 
以 了 。 如 果 数 据 中 包括 了 空 内 容 或 者 字段 中 有 空格 ,也 会 导致 同样 的 错 
误 。 除 了 更 改 原始 的 Excel 数据 之 外 ,还 可 以 选择 告诉 read. table 函数 数 
据 字 段 中 含有 空格 。 有 很 多 选项 都 可 以 达到 这 样 的 目的 ,具体 可 以 参考 
read. table 的 帮助 文件 。 帮 助 文件 的 第 一 部 分 如 下 所 示 ,你 不 需要 知道 所 
有 选项 的 意义 ,只 需要 了 解 如 何 更 改 这 些 设置 就 可 以 了 。 
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read.table (file, header = FALSE, sep = "", 
quote = "\m", dec = ".", row.names, col.names, 
as.is = !stringsAsFactors, 
na.strings = "NA", colClasses = NA, nrows=-1, 
skip = 0, check.names = TRUE, 
£fill = !blank.lines.skip, 
strip.white = FALSE, blank.lines.skip = TRUE, 
comment .char = "#", allowEscapes = FALSE, 
flush = FALSE, 
stringsAsFactors = default.stringsAsFactors()) 

这 是 一 个 有 很 多 选项 的 函数 。 例 如 ,如 果 在 数据 字段 中 含有 空格 ,可 
以 使 用 strip.white ~ TRUE 选项 ,其 它 选项 的 解释 可 以 在 帮助 文件 语法 部 
分 找到 。 帮 助 文件 还 给 出 了 以 csv 格式 读 取 数据 的 信息 。read. table 函 
数 还 包含 了 一 个 互联 网 上 文本 文件 的 URL 连接 。 

如 果 你 还 需要 从 同一 目录 下 读 取 更 多 的 文件 ,利用 setwd 函数 设置 一 
下 工作 目录 将 会 是 更 有 效 的 方法 。 此 时 ,你 就 可 以 省 略 掉 read. table 函数 
中 的 目录 路 径 了 ,如 下 所 示 ， 
> setwd("C:\\RBook\\") 
> Squid <- read.table (file = "squid.txt", 

header = TRUE) 


在 这 本 书 中 ,我 们 都 是 通过 先 使 用 setwd 函数 没 置 工作 目录 ,再 使 用 
read. table 函数 来 载 人 数据 库 的 。 这样 做 主要 是 因为 并 非 这 本 书 的 所 有 
读者 都 把 数据 文件 存放 在 C 盘 中 (一 些 电脑 甚至 没有 C 盘 )。 因 此 ,这 部 分 
人 需要 做 的 仅仅 是 改 一 下 setwd 西数 中 的 目录 名 就 可 以 了 。 

除了 read. table 函数 之 外 ,你 还 可 以 通过 scan 函数 来 载 和 数据。 它 
们 的 不 同 点 是 read. table 函数 把 数据 存储 在 数据 框 中 ,而 scan 函数 把 数 
据 存储 在 矩阵 中 。 在 数据 都 是 数值 的 情况 下 ,scan 函数 的 运行 速度 更 快 
(对 于 大 数据 库 而 言 , 一 般 指数 百 万 个 数据 )。 对 于 小 数据 库 而 言 ,就 没有 
讨论 运行 速度 的 必要 性 了 。 关 于 scan 函数 更 细节 的 内 容 , 可 以 通过 ? scan 
来 参考 它 的 帮助 文件 。 


练习 使 用 read. table 函数 和 scan 函数 完成 2. 4 节 习 题 6 习题 
7, 这 些 习 题 使 用 的 是 流行 病 学 数据 和 深海 研究 数据 。 


2.2.2 从 其 它 统计 程序 包 中 访问 数据 


除了 从 ascii 文件 中 访问 数据 之 外 ,R 还 可 以 从 其 它 统计 程序 包 中 载 人 
数据 ,例如 ,Minitab,S-PLUS,SAS,SPSS, Stata, Systat 等 等 .但 是 ,最 好 
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的 工作 方法 还 是 直接 面 对 原 始 数据 ,而 不 是 载 人 可 能 经 过 另 一 种 统计 软件 
包 处 理 过 的 数据 。 可 以 通过 键入 : 
> library (foreign) 
来 得 到 相应 的 操作 。 读 取 Minitab 文件 的 帮助 文件 可 以 这 样 得 到 ， 
> ?read.mtp 
这 里 给 出 write. foreign 函数 的 语法 : 
write.foreign(df, datafile, codefile, 
Package = c("SPSS", "Stata", "SAS"), ...) 

因此 ,你 可 以 把 R 中 生成 的 数据 信息 提取 到 一 些 统计 程序 包 中 ,具体 

的 操作 可 以 参考 write. foreign 函数 的 帮助 文件 。 


2.2.3 访问 数据 库 ” 


这 部 分 的 内 容 非常 具有 技术 性 , 它 和 从 数据 库 载 人 数据 是 相关 的 。 访 
问 或 者 载 人 数据 库 中 的 数据 都 是 比较 简单 的 ,在 R 中 有 一 个 特殊 的 程序 
包 , 提 供 了 快速 访问 任何 类 型 数据 库 的 一 些 工 具 ,通过 输入 : 
> library (RODBC) 


可 以 使 得 需要 的 日 标 可 用 。 当 驱动 程序 存在 于 主 系 统 时 ,程序 包 应 用 标准 
数据 库 实施 开放 式 数 据 库 连 接 (Open DataBase Connectivity,ODBC)。 因 
此 ,在 安装 数据 库 程序 包 时 设置 必要 的 驱动 程序 是 很 重要 的 ,在 Windows 
中 ,可 以 通过 管理 工具 菜单 (Administrative Tools menu) 或 ODBC 下 的 帮 
助 和 支持 文件 (Help and Support pages) 来 核实 这 一 点 。 假 定 你 已 安装 了 
正确 的 驱动 程序 ,可 以 使 用 odbcConnectAccess 命令 来 建立 一 个 与 
Microsoft Access 数据 库 的 连接 ,调用 这 个 连接 通道 可 以 输入 : 
> setwd("C:/RBook™) 
> channell <- odbcConnectAccess (file = 

"MyDb.mdb", uid = "my pwd = "") 

可 以 看 到 ,这 个 名 为 MyDB. mdb 的 数据 库 并 不 要 求 用 户 身份 (user 
identification,uid) 或 者 是 口令 (password, pwd) ,因此 可 以 省 略 这 些 选项 。 
你 也 可 以 通过 DSN 命名 协议 在 你 的 电脑 上 定义 一 个 数据 库 ,如 图 2. 4 
所 示 。 

现在 我 们 就 可 以 直接 使 用 数据 库 的 名 称 来 连接 数据 库 了 : 
> Channell <- odbcConnect ("MyDb.madb") 
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图 2.4 Windows 数据 源 管理 器 ,具有 系统 数据 源 名 称 的 数据 库 MyDb 


一 旦 我 们 建立 了 连接 ,访问 数据 将 是 很 简单 的 : 
> MyData <- sqlFetch (channell, "MyTable") 


我 们 使 用 了 sqlFetch 来 得 到 数据 ,并 将 其 存 人 MyData 中 。 这 并 不 是 
ODBC 连接 所 能 做 的 全 部 事情 ,一 旦 你 掌握 了 必要 的 数据 库 语言 ,你 还 可 
以 选择 数据 库 表 中 的 某 些 行 ,对 其 进行 任何 有 趣 的 操作 。 这 个 语言 被 称 为 
结构 化 查询 语言 (Structured Query Language, SQL), 它 并 不 难 学 。 在 
RODBC 中 发 送 一 个 SQL 查询 到 数据 库 的 指令 是 sqlQuery (channel， 
query) ,这 个 命令 中 query 仅仅 是 引号 中 的 SQL 查询 。 然而 ,就 算 没 有 学 
习 SQL, 还 是 有 一 些 可 用 的 命令 使 得 我 们 对 于 数据 库 的 工作 变 得 简单 ,你 
可 以 使 用 sqlTables 来 得 到 一 些 数 据 库 中 表 的 信息 ,例如 , SqlTables 
(channel) 或 者 sqlColumns (channel,"MyTable") 可 以 得 到 名 为 MyTable 
的 数据 库 中 列 的 信息 。 其 它 的 一 些 命令 有 ,sqlSave, 记 录 或 者 更 新 数据 库 
中 的 表 ;sqlDrop, 移 除 一 个 表 ;sqlClear ,删除 表 中 的 内 容 。 

Windows 用 户 可 以 使 用 odbcConnectExcel 直接 连接 Excel 中 的 电子 
数据 表 , 并 且 从 任意 表单 (sheets) 中 选择 一 些 行 或 列 ,这 些 表单 代表 不 同 
的 表 。 

此 外 ,对 于 Oracle(Roracle) 和 MySQL(RMySQL) 也 有 一 些 特殊 的 程 
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序 包 可 以 实现 接口 连接 。 
2.3 ”我们 学 习 了 哪些 R 函数 ? 


表 2.2 列 出 了 本 章 所 介绍 的 R 函数 。 
表 2.2 本 章 所 介绍 的 R 函数 








函 数 功 能 示 例 
sum 计算 和 sun(x,na. rm = TRUE) 
median 计算 中 位 数 median(x,na. rm = TRUE) 
max 计算 最 大 值 max(x,na. rm = TRUE) 
min 计算 最 小 值 min(x,na. rm = TRUE) 
cO 连接 数据 c(1,2,3) 
cbind 以 列 结合 变量 cbind(x,y,z) 
rbind 以 行 结合 变 量 rbind(x,y,z) 
Vector 以 向 量 形式 结合 数据 Vector(length = 10) 
matrix 以 矩阵 形式 结合 数据 matrix(nrow = 5,ncol = 10) 
data. frame ”以 数据 框 形式 结合 数据 data. frame(x = x,y = y,z = z) 
list 以 列表 形式 结合 数据 list(x = xy = y,z * z) 
rep 循环 数值 或 变量 rep(c(1,2,3),each = 10) 
seq 生成 一 个 有 序 的 序列 seq(1,10) 
dim 矩阵 或 者 cbind 输出 的 维 数 。 “din(MyData) 


colnanes 矩阵 或 者 cbind 输出 的 列 命名 colnames(MyData) 
rownames 矩阵 或 者 cbind 输出 的 行 命 名 rownames(MyData) 





setwd 设置 工作 目录 setwd("C: /Rbook/") 
read. table ”从 ascii 文件 中 读 取 数据 read. table (file = ”test，txt"， 
header = TRUE) 
scan 从 ascii 文件 中 读 取 数据 scan(file = "test. txt") 
2.4 习题 


习题 1. c 和 sum 函数 的 使 用 。 
此 题 使 用 的 是 一 个 流行 病 学 数据 。Vicente 等 (2006) 通 过 观察 生长 在 
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西班牙 一 些 地 方 的 野猪 和 马 鹿 得 到 这 些 数 据 ,数据 库 包含 了 两 种 生物 的 肺 
结核 (tuberculosis, Tb) 信 息 ,寄生 虫 Elaphostrongylus cervi 的 信息 ,这 种 
寄生 虫 只 会 感染 马 鹿 。 

在 Zuur 等 人 (2009) 的 著作 中 ,Tb 被 当 作 是 一 个 连续 变量 的 函数 , 动 
物 的 长 度 由 LengthCT(CT 是 cabeza-tronco 的 缩写 , 它 是 西班牙 语 ,表示 头 
体 ) 表 示 。Tb 和 E. cervi 由 0 或 者 1 的 向 量 表示 ,分 别 代表 未 发 现 或 发 现 
了 Tb 和 E. cervi 的 幼虫 。 下 表 中 的 前 7 行 给 出 了 鹿 的 数据 。 


农场 ” 月份” 年份 ”性 别 LengthClass LengthCT Ecervi Tb 
MO 11 00 1 75 0 
MO 07 00 85 0 
MO 07 01 91.6 0 
MO NA NA 
IN 09 03 


SE 09 03 105.5 0 


Rn nn rn 


0 

1 0 
1 1 

1 95 NA NA 

1 NA 0 0 

1 0 

QM 11 02 1 106 0 0 


使 用 c 函数 生成 一 个 包含 了 7 只 动物 长 度 值 的 一 个 变量 ,再 生成 一 个 
包含 Tb 值 的 变量 ,包含 NA。 并 求 7 只 动物 的 平均 长 度 。 
习题 2. 使 用 流行 病 学 数据 练习 cbind 函数 的 应 用 。 

继续 习题 1 中 关于 鹿 的 问题 。 首 先生 成 一 个 包含 了 农场 和 月 份 信息 
的 变量 ,注意 农场 是 字符 串 。 然 后 使 用 cbind 命令 结合 月 份 .长 度 和 Tb 
值 , 并 且 将 结果 存储 在 变量 Boar 中 ,同时 确保 可 以 提取 Boar 中 的 行列 和 
每 个 元 素 。 使 用 dim,nrow,ncol 函数 确定 Boar 中 动物 的 数量 和 变量 的 数 
量 。 
习题 3 使 用 流行 病 数据 练习 vector 函数 的 应 用 。 


继续 习题 1 中 关于 鹿 的 问题 。 类 似 于 习题 2, 使 用 vector 函数 结合 
Tb 数据 ,使 用 不 一 样 的 变量 名 ,例如 Tb2。 


习题 4. 对 和 矩阵 的 操作 。 


在 R 中 生成 下 面 的 矩阵 ,并 确定 它 的 转 置 矩阵 , 逆 矩 阵 , 同 时 计算 PP 和 
它 的 道 矩 阵 的 乘积 (结果 将 是 单位 矩阵 ) 。 
1 
D= |4 
2 





2 3 
2 1 
3 0 
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习题 5. 使 用 流行 病 学 数据 练习 data. frame 函数 和 1ist 函数 的 应 用 。 


继续 习题 1 至 3 中 的 问题 。 生 成 一 个 包含 习题 1 表 中 所 有 数据 的 数据 
框 ,并 将 长 度数 据 值 的 均 方 根 加 到 这 个 数据 框 中 ,再 用 list 函数 完成 同样 
的 工作 ,比较 一 下 它们 的 不 同 点 。 


习题 6. 使 用 深海 研究 数据 练习 read. table 函数 和 scan 函数 的 应 用 。 


文件 ISIT. xls 包含 了 深海 生物 发 光 的 数据 ,图 1.6 就 是 由 这 些 数据 完 
成 的 ,此 图 上 面 的 段落 是 这 些 数据 的 描述 。 准 备 一 个 电子 数据 表 ( 大 概 有 
4 一 5 个 问题 需要 解决 ), 并 且 把 数据 提取 到 ascii 文件 中 ,依次 使 用 read. 
table 函数 和 scan 函数 将 这 些 数据 载 人 到 R 中 ,使 用 两 个 不 同 的 变量 名 存 
储 数据 ,比较 它们 的 不 同 点 ,使 用 is.matrix 函数 和 is. data. frame 函数 回 
答 这 个 问题 。 


习题 7. 使 用 流行 病 学 数据 练习 read. table 函数 或 scan 函数 的 应 用 。 


文件 Deer. zls 包含 了 习题 1 讨论 的 鹿 的 数据 ,但 是 也 包含 了 其 它 动物 
的 数据 ,把 需要 的 数据 从 Excel 提取 到 ascii 文件 中 ,并 且 将 它 载 人 R。 


这 3 章 


访问 变量 和 处 理 数据 子 集 


上 一 章 我 们 示范 了 从 电子 数据 表 或 数据 库 将 数据 导入 R 中 。 我 们 也 
展示 了 如 何 输 入 小 型 数据 集 并 把 它们 存储 在 一 个 数据 框 中 。 现 在 我 们 讨 
论 访问 数据 子 集 。 


3.1 访问 数据 框 变量 


假设 前 面 章节 中 载 人 鲍鱼 数据 时 没有 出 现 错误 ,现在 我 们 继续 处 理 数 
据 。 

进行 统计 分 析 时 ,删除 部 分 数据 ,选取 若干 子 集 , 或 加 以 分 类 都 是 很 重 
要 的 。 这 些 操作 大 部 分 可 以 在 导 人 到 R 之 前 ,使 用 Excel 或 者 其 它 电子 数 
据 表 (或 数据 库 ) 程 序 完成 ,但 是 ,由 于 种 种 原因 ,最 好 不 要 这 样 做 。 最 终 您 
可 能 需要 每 次 选 定 部 分 数据 重新 载 人 。 也 可 能 一 些 数据 文件 太 大 以 至 于 
无 法 从 电子 数据 表 中 载 人 。 因 此 ,一 定 程 度 上 人 掌握 在 R 里 处 理 数据 文件 的 
知识 是 有 益 的 。 然 而 ,对 读者 而 言 , 这 可 能 是 R 最 难 的 一 方面 ,但 是 一 旦 掌 
握 了 它 是 很 有 益 的 ,因为 这 意味 着 所 有 的 Excel( 或 任何 其 它 的 电子 数据 
表 ) 中 繁琐 的 数据 处 理 都 可 以 在 R 中 完成 。 

我 们 利用 上 一 章 中 载 人 的 名 鱼 数据 。 如 果 你 还 没有 这 样 做 ,使 用 下 面 
的 命令 载 人 数据 ,并 存储 在 数据 框 squid 中。 
> setwd("C:/RBook/") 


> Squid <- read.tableffile = "squid.txt", 
header = TRUE) 
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read. table 函数 生成 了 一 个 数据 框 , 并 且 ,因为 R 中 大 部 分 函数 用 数 
据 框 工作 ,我 们 更 倾向 于 它 ,而 不 是 scan 函数 。 我 们 建议 read. table 命令 
后 ,立即 使 用 names 命令 以 查看 我 们 正在 处 理 的 变量 : 

> names (Squid) 
[1] "Sample" "Year" "Month" "Location" "Sex" "GSI" 

我 们 经 常 注意 到 我 们 的 课程 参与 者 直接 将 代码 输入 到 R 控制 台 。 正 
如 第 1 章 提 到 的 ,我 们 强烈 建议 将 命令 输入 一 个 好 的 文本 编辑 器 ,比如 基 
于 Windows 操作 系统 的 Tinn-R。( 见 第 1 章 使 用 非 Windows 操作 系统 的 
编辑 器 资源 ,) 为 强调 这 一 点 ,图 3. 1 显示 了 目前 为 止 我 们 的 R 代码 快照。 
请 注意 我 们 复制 并 粘 帖 names 命令 的 结果 到 Tinn-R 文件 。 这 使 得 我 们 能 
够 迅速 查看 我 们 正在 处 理 哪 些 变量 并 减少 输入 错误 的 机 会 。 








YRead the data 
Squid <- read.table(file ~ 





nl oll Momal ET 


图 3.1 我 们 的 Tinn-R 文件 快照 。 请 注意 “# "符号 放 在 注释 之 前 ,代码 是 有 很 好 的 
记录 的 ,包括 代码 的 编写 日 期 。 把 所 有 变量 名 称 复制 并 粘 帖 到 文本 文件 可 以 
让 我 们 快速 检查 变量 名 称 的 拼写 。 你 的 文件 结构 尽 可 能 透明 ,并 且 添 加 注释 
是 很 重要 的 。 也 要 确保 你 有 该 文件 和 数据 文件 的 备份 


3.1.1 str 函数 
str( 结 构 ) 命 令 告诉 我 们 数据 框 中 每 个 变量 的 属性 : 
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> str(Squid) 





’data.frame’ : 2644 obs. of 6 variables: 

$ Sample St 

$ Year i 

$ Month i 

$ location : int 1311111331. 

$ Sex 和 

$ GSI : num 10.44 9.83 9.74 9. 31 8. D9 us 


这 组 神秘 的 输出 告诉 我 们 变量 样本 、 年 份 .月 份 , 位 置 和 性 别 是 整数 

型 ,GSI 是 数值 型 。 假 如 你 使 用 了 错误 的 分 隔 符 点 : 

> setwd("C:/RBook/") 

> Squid2 <- read.table (file = "squidGSsI.txt", 
dec = ",", header = TRUE) 

我 们 (错误 地 ) 告 诉 R 在 ascii 文件 中 小 数 分 隔 符 是 一 个 去 号 ，Squid2 
数据 框 仍然 包含 相同 的 数据 ,但 是 使 用 str 命令 会 使 我 们 检测 到 一 个 主要 
问题 ， 

> strfSquid2) 





‘data.frame’ :2644 obs. of 6 variables: 

$ Sample : int 12345678910... 

$ Year Dr | i We op Cp i So Se hs Ty ES 

$ Month int 11111111.12.,.. 

$ Location : int 1311111331... 

$ Sex i 

$ GSI : Factor w/ 2472 levels "0. 0064", "0.007" .., 


现在 变量 GSI 被 认为 是 一 个 因子 。 这 就 意味 着 ,如 果 我 们 继续 使 用 函 
数 比 如 均值 或 盒 形 图 ,R 将 会 产生 神秘 的 错误 信息 ,因为 GSI 不 是 数值 型 
的 。 我 们 已 经 看 到 很 多 由 于 这 一 类 错误 导致 的 混乱 。 

因此 ,我 们 强烈 推荐 你 始终 将 read. table 函数 和 names 以 及 str 函数 
结合 在 一 起 使 用 。 

感 兴趣 的 变量 为 GSI。 在 任何 后 续 的 统计 分 析 中 ,我 们 可 能 要 建立 
GSI 作为 年 份 .月 份 .位 置 和 性 别 的 函数 的 模型 。 在 做 任何 统计 分 析 之 前 ， 
你 应 该 将 数据 可 视 化 ( 即 , 画 图 )。 盒 形 图 、 克 里 夫 兰 点 图 、 散 点 图 、 多 组 图 
以 及 类 似 命 令 ( 见 Zuur 等 ,2007;2009) 等 都 是 有 用 的 工具 。 但 是 ,R 不 识 
别 变量 GSI( 或 者 任何 其 它 的 变量 )。 为 了 说 明 这 一 点 ,输入 
> GsI 
Error: object "GSI" not found 

存在 的 问题 是 变量 GSI 储存 在 数据 框 squid 中。 有 几 种 方法 访问 它 ， 
好 的 和 不 恰当 的 方法 ,下 文 我 们 将 分 别 讨论 。 


58 第 3 章 访问 变量 和 处 理 数据 于 集 





3.1.2 函数 中 的 数据 参数 


访问 数据 框 中 变量 最 有 效 的 方法 如 下 。 确 定 R 中 的 一 个 函数 ,例如 ， 
线性 回归 函数 ln; 根据 变量 SSI,Month,Year 和 Location 指定 模型 ;并 告诉 
函数 lm 在 数据 框 Squid 中 可 以 找到 数据 。 尽 管 我 们 这 本 书 中 不 进一步 讨 
论 线性 回归 ,但 给 出 代码 如 下 。 


> M1 <- lm(GSI ~ factor(Location) + factor(Year), 
data = Squid) 


我 们 忽略 了 第 一 部 分 , 它 指定 了 实际 的 线性 回归 模型 。 上 述 语句 的 最 
后 一 部 分 (data = ) 告 诉 R, 变 量 在 数据 框 Squid 中。 这 是 一 种 简洁 的 方法 ， 
因为 没有 必要 在 数据 框 外 定义 变量 ;所 有 变量 都 很 好 地 存储 在 数据 框 
Squid 中 。 这 种 方法 的 主要 问题 是 ,并 不 是 所 有 函数 都 支持 data 选项 。 例 
如 ， 
> mean(GSI, data = Squid) 


会 给 出 错误 信息 : 


Error in mean (GSI, data = Squid) : object "GSI" not 
found 


因为 函数 mean 不 含 data 参数 。 有 时 帮助 文件 告诉 你 有 data 参数 ,在 一 些 
情况 下 可 能 有 效 ,但 是 另外 一 些 情形 下 可 能 无 效 。 例 如 ,下 面 的 代码 给 出 
一 个 盒 形 图 (这 里 没有 显示 ) 。 

> boxplot (GSI ~ factor(Location), data = Squid) 


但 是 这 条 命令 给 出 错误 信息 : 


> boxplot (GSI, data = Squid) 
Error in boxplot (GSI, data = Squid) : object "GSI" not 
found 


总 之 ,如 果 一 个 函数 有 data 参数 ,就 使 用 它 ;这 是 最 简洁 的 编程 方法 。 
3.1.3 $ 符 号 


那么 ,如 果 一 个 函数 没有 data 参数 ,你 可 以 做 些 什么 呢 ? 这 里 有 两 种 
方法 可 以 访问 变量 。 第 一 个 方法 是 $ 符号 : 


> squid$GsI 

[1] 10.4432 9.8331 9.7356 9.3107 8.9926 
[6] 8.7707 8.2576 7.4045 7.2156 6.8372 
[11] 6.3882 6.3672 6.2998 6.0726 5.8395 


王 为 了 节省 空间 截至 此 处 二 
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我 们 只 复制 和 粘 帖 了 包含 2644 个 观察 值 的 数据 集 的 前 几 行 作为 输 
出 。 其 它 变量 能 够 以 相同 的 方式 访问 。 输 入 数据 框 的 名 称 , 紧 接着 是 $ 符 
号 以 及 变量 名 。 原 则 上 ,你 可 以 在 $ 符号 和 变量 名 之 间 加 入 空格 : 
> Squid$GsI 

[1] 10.4432 9.8331 9.7356 9.3107 8.9926 


[6] 8.7707 8.2576 7.4045 7.2156 6.8372 
[11] 6.3882 6.3672 6.2998 6.0726 5.8395 


二 为 了 节省 空间 截至 此 处 二 


我 们 并 不 推荐 这 种 方法 ( 它 看 起 来 很 奇怪 ) 。 
第 二 种 方法 是 如 果 你 要 访问 GSI 数 据 ,选择 第 6 列 ， 


> squid[, 6] 

[1] 10.4432 9.8331 9.7356 9.3107 8.9926 
[6] 8.7707 8.2576 7.4045 7.2156 6.8372 
[11] 6.3882 6.3672 6.2998 6.0726 5.8395 


三 为 了 节省 空间 截至 此 处 二 


它 给 出 了 完全 相同 的 结果 。 无 论 是 使 用 Squid $ GSI 还 是 Squid[ ,6]， 
现在 你 都 可 以 计算 均值 : 
> mean (Squid$GSI) 
[1] 2.187034 
我 们 倾向 于 使 用 $ GSI 代码 ,在 你 输入 Squid[ ,6] 一 周 后 ,可 能 会 忘记 p.62 
GSI 数据 在 第 6 列 ,符号 $ 6SI 更 清晰 。 
你 也 可 以 使 用 Squid[,，"GSIT"], 它 会 增加 混 消 。 请 注意 对 于 有 些 函 数 ， 
使 用 Squid $ 会 给 出 错误 信息 ,例如 ,nlme 包 里 的 gls 函数 。 


3.1.4 attach 函数 


现在 我 们 讨论 访问 变量 的 不 恰当 的 方法 。 我 们 已 经 使 用 ”$ "访问 数 
据 框 Squid 里 的 变量 。 如 果 我 们 想 使 用 GSI 数据 集 里 的 某 个 变量 每 次 输 
入 Squid$ 是 繁琐 的 。 使 用 attach 命令 可 以 避免 这 样 的 麻烦 。 该 命令 使 
数据 框 Squid 里 所 有 的 变量 都 是 可 用 的 。 为 了 更 准确 ,attach 命令 把 
Squid 添加 到 R 的 搜索 路 径 里 。 因 此 ,现在 你 可 以 输入 GSI 或 Location 而 
不 使 用 Sauid$ 。 
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> attach (Squid) 

> GsI 

[1] 10.4432 9.8331 9.7356 9.3107 8.9926 
[6] 8.7707 8.2576 7.4045 7.2156 6.8372 
[11] 6.3882 6.3672 6.2998 6.0726 5.8395 


二 为 了 节省 空间 截至 此 处 二 


对 于 其 它 变量 同样 适用 。 于 是 ,现在 你 可 以 使 用 每 一 个 函数 而 不 需要 
data 参数 。 


> boxplot (GSI) #Graph not shown here 
> mean (GSI) 
[1] 2.187034 

attach 命令 听 起 来 好 得 令 人 难以 置信 。 如 果 使 用 时 很 细心 , 它 是 一 个 
有 用 的 命令 。 如 果 你 绑 定 一 个 与 外 部 具有 相同 变量 名 称 的 数据 框 ,或 者 绑 
定 的 两 个 数据 框 里 具有 相同 名 称 的 变量 , 则 将 会 发 生 问题 。 如 果 你 绑 定 的 
数据 框 有 变量 名 称 与 R 自 带 函 数 名 称 相同 或 与 示例 数据 框 变量 名 称 相同 ， 
也 会 发 生 问 题 (例如 变量 名 “时 间 ” 和 函数 名 “时 间 ”)。 在 所 有 这 些 情况 下 ， 
你 可 能 会 发 现在 你 的 计算 里 R 不 使 用 你 所 期 望 的 变量 。 在 课堂 教学 上 , 当 
学 生 做 不 同 的 练习 时 每 次 载 人 一 个 新 的 数据 集 , 它 们 具有 类 似 的 名 字 比 
如 :位 置 "“ 月 份 "“ 性 别 ?等 ,这 会 是 一 个 重大 的 问题 。 在 这 种 情况 下 最 
好 使 用 detach 命令 ,或 者 当 你 处 理 一 个 新 的 数据 集 时 每 次 简单 地 关闭 R 
并 重新 启动 。 如 果 你 在 一 个 研究 项 目 中 只 使 用 一 个 数据 集 并 细心 处 理 变 
量 名 称 ,那么 attach 命令 是 非常 有 用 的 。 但 是 一 定 要 小 心 使 用 。 

P.63 总 结 attach 命令 的 用 法 。 


1. 为 了 避免 复制 变量 ,不 要 输入 attach(Squid) 命 令 两 次 。 

2. 如 果 你 使 用 attach 命令 ,确保 你 使 用 唯一 的 变量 名 称 。 避 免 使 用 月 份 、 
位 置 等 常见 的 名 称 。 . 

3. 如 果 你 载 人 多 个 数据 集 , 并 且 一 次 只 处 理 一 个 数据 集 。 考 虑 使 用 detach 
命令 从 R 的 搜索 路 径 里 移 除 一 个 数据 框 。 


在 本 章 下 面 的 部 分 ,我 们 假定 你 不 输入 attach(Squid) 命 令 , 如 果 你 这 
样 做 了 ,输入 
> detach (Squid) 
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完成 3. 7 节 的 习题 1。 这 是 一 个 利用 read. table 函数 并 使 用 流 
行 病 学 数据 集 访问 变量 的 习题 。 


3.2 访问 数据 子 集 


本 节 , 我 们 讨论 如 何 访问 并 提取 数据 框 Squid 的 成 分 。 该 方法 可 以 应 
用 到 你 自己 输入 数据 创建 的 一 个 数据 框 ,如 第 2 章 所 示 。 

可 能 会 出 现 这 种 情况 ,你 只 想 处 理 , 例 如 ,上 肉 性 数据 , 某 个 位 置 的 数据 ， 
或 者 某 个 位 置 的 肉 性 数据 。 为 了 提取 数据 子 集 , 我 们 需要 知道 性 别 是 如 何 
编码 的 。 我 们 可 以 键入 
> Squid$Sex 


[二 ] -入 2 
时 
【人 汪汪 2 
{7 


志 为 了 节省 空间 截至 此 处 二 


但 是 这 显示 了 变量 Sex 的 所 有 值 。 一 个 好 的 选择 是 使 用 unique 命令 
显示 这 个 变量 里 有 多 少 个 唯一 值 : 


> unique (Squid$Sex) 
[1] 2 1 


这 里 1 表示 梭 性 ,2 表示 雌性 。 为 了 访问 所 有 的 雄性 数据 ,使 用 


> Sel <- Squid$sex == 1 
> squidM <- squid[sel, J 


> SquidM 

Sample Year Month Location Sex GSI 
24 24 1 5 1 1 5.2970 
48 48 1 5 3 1 4.2968 
58 58 4 6 下 1 3.5008 
60 60 1 6 1 1 3.2487 
61 61 1 6 1 1 3.2304 

二 为 了 节省 空间 截至 此 处 二 


第 一 行 生成 一 个 向 量 Sel 与 变量 Sex 具有 相同 的 长 度 , 如 果 Sex 值 为 
1 则 该 变量 的 值 是 TRUE, 反 之 为 FALSE。 这 样 的 一 个 向 量 也 称 为 布尔 向 
量 , 可 以 用 来 选择 行 ,因此 我 们 命名 为 Sel。 在 下 一 行 ,我 们 选择 Squid 中 


P.64 
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Sel 等 于 TRUE 的 行 , 并 把 我 们 选择 的 数据 存储 在 SquidM 里 。 因 为 我 们 选 
择 Squid 的 行 , 我 们 需要 使 用 方 括号 [ ], 并 且 , 因 为 我 们 想 要 行 ,具有 布尔 
值 的 向 量 Sel 必须 在 逗号 之 前 。 也 可 以 在 一 个 命令 里 完成 两 行 : 

> squidM <- squid[squid$sex == 1, J 


> SquidM 
Sample Year Month Location Sex GSI 
24 24 1 5 1 1 5.2970 
48 48 1 芝 1 4.2968 
58 58 入 6 和 1 3.5008 
60 60 1 6 1 1 3.2487 
61 61 1 6 . 1 3.2304 
二 为 了 节省 空间 截至 此 处 二 
雌性 数据 可 以 通过 如 下 方式 获得 
> SquidF <- Squid[squid$sex == 2, J] 
> squidF 
Sample Year Month Location Sex GSI 
1 1 1 1 主 2 10.4432 
2 2 1 3 2 9.8331 
3 3 1 1 1 2 9.7356 
4 4 1 1 1 2 9.3107 
5 5 1 1 1 2 8.9926 
< 为 了 节省 空间 截至 此 处 二 


基于 第 二 个 变量 的 值 的 条 件 下 选择 变量 数据 (或 数据 框 ) 的 过 程 称 为 
条 件 选择 。unique 命令 应 用 到 Squid $ Location 上 显示 有 4 个 位 置 编码 
为 1,2,3 和 4。 为 了 提取 位 置 1,2 或 3 的 数据 ,我 们 可 以 使 用 下 面 的 语句 
它们 都 给 出 相同 的 结果 (符号 | 表示 布尔 运算 “或 ",! 一 表示 “不 等 于 ”) 。 


> squid123 <- squid[squid$Location == 1 | 
Squid$Location == 2 | Squid$Location == 3, J 
Squid1l23 <- Squid[Squid$Location != 4, J 
Squid123 <- squid[squid$Location < 4, J 
Squid123 <- squid[squid$Location <= 3, J 
Squid123 <- squid[squid$Location >= 1 & 
Squid$Location <= 3, J 


你 可 以 选择 它们 中 的 任何 一 个 。 下 面 我 们 使 用 “&”, 它 是 布尔 “和 ” 运 
算 符 。 假 定 我 们 想 从 位 置 1 提取 雄性 数据 。 这 意味 着 数据 既 来 自 于 雄性 
鲍鱼 也 来 自 于 位 置 1。 下 列 代 码 提 取 满足 这 些 条 件 的 数据 。 


vvvv 
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> SquidM.1 <- squid[Squid$Sex 





了 区 


Squid$Location == 1,] 


Sample Year Month Location Sex GSI 
24 24 工 每 1 1 5.2970 
58 58 1 6 1 1 3.5008 
60 60 2 6 1 1 3.2487 
61 61 1 6 1 1 3.2304 
63 63 1 6 1 3.1848 
二 为 了 节省 空间 截至 此 处 二 
来 自 位 置 1 或 2 的 雄性 数据 由 下 面 给 出 
> SquidM.12 <- Squid[Squid$Sex == 1 & 
(Squid$Location == 1 | Squid$Location = 
不 要 使 用 下 面 的 命令 
> SquidM <- squid[sSquids$sex == 1, J 


v 


SquidM1 <- SquidM[Squid$Location == 1, 


> SquidM1 

Sample Year Month Location Sex GSI 
24 24 :9 5 1 1 5.2970 
58 58 1 6 1 1 3.5008 
60 60 1 6 1 1 3.2487 
61 61 二 6 来 1 3.2304 
62 62 和 5 3 1 3.2263 
NA.1113 NA NA NA NA NA 
NA.1114 NA NA NA NA NA 
NA.1115 NA NA NA NA NA 
NA.1116 NA NA NA NA NA 


第 一 行 提取 雄性 数据 并 把 它 分 配给 SquidM, 因 此 它 比 Squid( 假 定数 据 里 
有 上 肉 性 鳄鱼 ) 的 维 数 小 ( 较 少 的 行 )。 下 一 行 ,布尔 向 量 Squid $ Location ==1 
比 Squid 的 行 的 数量 长 ,R 将 对 SquidM 添加 具有 NAs 值 的 多 余 的 行 。 于 
是 ,我 们 得 到 一 个 数据 框 ,SquidM1, 它 包含 NAs。 问 题 是 我 们 想 要 使 用 与 


7 


NR 
NA 
NA 
NA 


Squid 具有 相同 行 数 的 布尔 向 量 访问 SquidM 中 的 元 素 。 
如 果 一 个 子 集 选 择 命令 的 输出 显示 了 下 面 的 信息 ,不 要 惊慌 。 
> squid[squid$Location == 1 6 Squid$Year == 4 & 


Squid$Month == 1, 


[1] Sample 


GS 
<0 rows> 


I 


Year 


fSex 


Month 


Location 
fLocation 
(or 0-length row.names) 


Sex 


=- 2); 了 
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这 只 是 意味 着 这 4 年 里 没有 测量 值 来 自 1 月 份 的 位 置 1。 
3.2.1 数据 排序 

除了 提取 数据 子 集 ,有 时 重新 排列 数据 也 是 有 用 的 。 对 于 鲍鱼 数据 ， 
你 可 能 想 根据 变量 "月份" 由 低 到 高 的 值 排列 GSI 数据 ,即使 只 是 为 了 快速 
浏览 。 可 以 使 用 下 面 的 代码 。 


> Ordl <- order (Squid$Month) 
> squid[ordl, J 


Sample Year Month Location Sex GsI 

和 1 1 1 1 2 10.4432 

2 2 1 1 3 2 9.8331 

3 3 1 1 1 2 9.7356 

4 4 1 1 1 2 9.3107 

5 1 1 1 2 8.9926 
二 为 了 节省 空间 截至 此 处 二 


因为 我 们 是 处 理 Squid 的 行 , 我 们 需要 把 ordl 放 在 逗号 前 。 我 们 也 可 
以 只 用 一 个 变量 完成 这 个 练习 ,例如 GSI。 这 种 情况 下 ,使 用 


> Squid$GsI [Ord1] 


[1] 10.4432 9.8331 9.7356 9.3107 8.9926 8.7707 
[7] 8.2576 7.4045 7.2156 6.3882 6.0726 5.7757 
[13] 1.2610 1.1997 0.8373 0.6716 0.5758 0.5518 
[19] 0.4921 0.4808 0.3828 0.3289 0.2758 0.2506 


二 为 了 节省 空间 截至 此 处 二 


完成 3.7 节 的 习题 2。 这 是 一 个 利用 read. table 函数 并 使 用 深 
海 研究 数据 集 访问 数据 框 子 集 的 习题 。 


3.3 使 用 相同 的 标识 符 组 合 两 个 数据 集 


到 目前 为 止 , 我 们 已 看 到 所 有 的 数据 点 存储 在 相同 的 文件 中 的 例子 。 
然而 ,事实 并 非 总 是 如 此 。 本 书 的 作者 曾 参与 很 多 项 目 , 在 这 些 项 目 里 包 
含 相同 动物 的 不 同类 型 的 测量 数据 。 例 如 ,其 中 的 一 个 项 目 是 由 不 同 的 研 
究 所 给 出 的 大 约 1000 条 鱼 的 测量 值 ; 一 个 研究 所 计算 形态 度量 值 , 另 一 个 
测量 化 学 变量 ,另外 还 有 一 个 计算 寄生 虫 的 数目 。 每 个 研究 所 生成 包含 工 
作 组 特定 变量 的 电子 数据 表 。 关 键 的 一 点 是 ,每 个 研究 所 的 研究 人 员 测 量 
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每 条 鱼 , 因 此 所 有 的 电子 数据 表 包 含 一 列 确定 鱼 的 类 别 。 有 些 鱼 在 处 理 过 
程 中 丢失 了 或 者 不 适合 某 种 处 理 过 程 。 因 此 ,最 终 的 结果 是 一 系列 的 
Excel 电子 数据 表 , 每 个 包含 上 千 个 5 一 20 组 特定 变量 的 观测 值 ,但 是 对 于 
每 条 鱼 ( 案 例 ) 具 有 一 个 共同 的 标识 符 。 

对 于 一 个 简单 的 数据 集 , 见 图 3. 2 的 电子 数据 表 。 设 想 鲈鱼 数据 以 这 
种 方式 组 织 ,两 个 具有 相同 标识 符 的 不 同 的 文件 或 工作 表 。 现 在 的 任务 是 
合并 两 个 数据 集 使 得 第 一 个 数据 集 里 第 7 个 样品 放 在 第 二 个 数据 集 里 第 了 
个 样品 的 旁边 。 为 了 说 明 目 的 ,我 们 删除 第 二 个 电子 数据 表 的 第 四 行 ; 正 
如 假定 某 人 忘记 输入 第 四 个 观察 值 的 年 份 . 月 份 . 位 置 和 性 别 。R 有 一 个 
有 用 的 工具 能 合并 文件 , 即 merge 函数 。 它 由 下 面 的 代码 运行 。 前 两 行 用 
来 读 取 两 个 单独 的 鲈鱼 文件 : 


= 











图 3.2 带 有 样本 数 的 GSI 数 据 (左边 ) 和 带 有 样本 数 的 其 它 变量 (右边 ) 。 为 了 示范 
merge 函数 ,我 们 删除 了 右边 电子 数据 表 的 第 四 行 


> setwd("C:/RBook/") 

> sql <- read.table (file = "squidl.txt", 
header = TRUE) 

> Sqg2 <- read.table(file = "squid2.txt™", 
header = TRUE) 

> SquidMerged <- merge (sql, Sq2, by = "Sample") 

> SquidMerged 

Sample GSI Year Month Location Sex 

村 1 10.4432 1 J 1 六 

2 2 9.8331 也 1 3 2 
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.7356 
.9926 
.7707 
.2576 
-4045 
2156 
.8372 
.3882 


二 为 了 节省 空间 截至 此 处 二 


PoomJanmeaw 
PowoJanw 
maw、ooo 
PppPpPPPP 

PP PP PP Pb 
PPwwhPhrm 
bbNNNNN 


PP 号 


工 


merge 命令 采用 两 个 数据 框 Sql 和 Sq2 作为 参数 并 使 用 变量 Sample 
作为 相同 的 标识 符合 并 两 个 数据 集 。merge 函数 的 一 个 有 用 的 选项 是 all。 
缺 省 状态 下 它 的 设置 是 FALSE, 它 的 含义 是 Sql 和 Sq2 的 行 如 果 有 缺失 值 
将 被 忽略 。 当 设置 为 TRUE 时 ,如 果 Sql 里 没有 Sq2 里 出 现 的 样本 数据 ,将 
用 NAs 填充 ,反之 亦 然 。 使 用 这 个 选项 ,我 们 得 到 


> SquidMerged <- merge (Sql, Sq2, by = "Sample", 
all = TRUE) 
> SquidMerged 
Sample GSI Year Month Location Sex 
10.4432 1 
.8331 3 
.7356 a 
3107 N NA RN 
.9926 类 
7707 
.2576 
.4045 
.2156 
.8372 


二 为 了 节省 空间 截至 此 处 二 


Poomewvauwewnn 
CR 
moomomooowe 
ppppppSppp 
名 
brrrrParrrn 
RNRNRRRNDNNN 


PP w w P P 


请 注意 观察 值 ( 鱼 / 案 例 )4 里 的 年 份 . 月 份 、 位 置 和 性 别 是 缺失 值 。 为 
了 避免 混淆 ,回忆 我 们 为 了 示范 的 目的 只 移 除 了 第 四 行 的 观察 值 。 更 多 的 
选项 及 例子 在 merge 帮助 文件 里 给 出 。 


3.4 输出 数据 


除了 read. table 命令 ,R 也 有 write. table 命令 。 使 用 这 个 函数 ,你 
可 以 把 数字 信息 输出 到 ascii 文件 。 假 设 你 提取 了 雄性 铠 鱼 数据 ,并 且 你 想 
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把 它 输出 到 另外 一 个 软件 包 , 或 把 它 传 给 一 个 同事 。 最 简单 的 方法 是 输出 
雄性 驱 鱼 数据 到 ascii 文件 ,然后 把 它 输入 到 另外 的 软件 包 , 或 者 通过 电子 
邮件 发 送 给 你 的 同事 。 下 列 命令 提取 雄性 数据 (这 种 情况 下 你 不 必 输 入 
它 ), 并 把 它 输 出 到 文件 ,MaleSquid. txt。 
> SquidM <- Squid[Squid$Sex == 1, J 
> write.table (SquidM, 

file = "MaleSquid.txt", 

sep = " ", quote = FALSE, append = FALSE, na = "NA") 

write. table 函数 里 第 一 个 参数 是 你 想 要 输出 的 变量 ,并 且 显然 你 也 
需要 一 个 文件 名 。sep = ”" 保 证 数据 用 空格 隔 开 ,quote = FALSE 消除 字符 
串 ( 标 题 ) 的 引号 标志 ,na = "NA" 允许 你 指定 缺失 值 由 什么 来 代替 ,append = 
FALSE 打开 一 个 新 的 文件 。 如 果 你 设置 为 TRUE, 它 将 把 变量 SquidM 添加 到 
-个 已 经 存在 的 文件 的 尾部 。 

让 我 们 说 明 一 些 这 样 的 选项 。 当 我 们 运行 上 面 的 代码 , ascii 文件 
MaleSquid, txt 的 前 六 行 如 下 。 
Sample Year Month Location Sex GSI fLocation fSex 
3 1 5.297 1 M 
.2968 3 M 
.5008 1 M 

4 
1 


4 
3 
3.2487 M 
3.2304 1 M 


a 

3 

a 

o 
PP PP 
PP PP wm 
PP PP 


5 
6 
6 
6 
三 为 了 节省 空间 截至 此 处 > 


因此 ,这 些 元 素 用 空格 进行 隔离 。 请 注意 我 们 缺少 了 第 一 列 的 名 字 。 
如 果 你 把 这 些 数据 输入 到 Excel, 你 可 能 需要 把 第 一 行 转移 到 右 侧 一 列 。 
我 们 可 以 改变 sep 和 quote 选项 。 


> write.table(SquidM, 
file = "MaleSquid.txt", 
Sep = ",", quote = TRUE, append = FALSE, na = "NA") 


它 在 ascii 文件 MaleSquid. txt 里 给 出 下 列 输 出 。 


"Sample", "Year", "Month", "Location", "Sex", "GSI", 
"fLocation", "fSex" 

"24",24,1,5,1,1,5.297, "1","M" 

"48", 48,1,5,3,1,4.2968," 
“50";58,1,6;1,1;3.5008, "1", 
"60",60,1,6,1,1,3.2487, "1", "M™" 
"61",61,1,6,1,1,3.2304, "1", "M" 
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标题 扩展 为 两 行 是 由 于 文本 编辑 器 的 原因 。 真 正 的 差别 是 逗号 分 隔 符 
和 分 类 变量 的 引号 ,以 及 标题 和 标签 。 对 于 有 些 包 这 是 重要 的 。append = 
TRUE 选项 是 有 用 的 ,比如 ,如 果 你 对 上 千 个 数据 集 应 用 线性 回归 并 且 你 想 
在 一 个 文件 里 有 所 有 的 数字 输出 结果 。 





一 完成 3.7 节 的 习题 3。 这 是 一 个 利用 write. table 函数 并 使 用 
深海 研究 数据 集 的 习题 。 
3.5 重新 编码 分 类 变量 


在 3.1 节 , 我 们 使 用 str 函数 给 出 了 鲍鱼 数据 框 的 下 列 输出 。 


> str(Squid) 
‘data.frame’: 


2644 obs. of 6 variables: 


$ Sample 0 
$ Year i 
$ Month 六 
$ Location: int 1311111331... 
$ Sex :int2222222222... 
$ GSI : num 10.44 9.83 9.74 9.31 8.99 


变量 Location 编码 为 1,2,3 或 4,Sex 为 1 或 2。 这 样 的 变量 是 分 类 或 
名 义 变量 。 在 Excel 里 ,我 们 可 以 把 性 别 编码 为 雄性 和 雌性。 把 名 义 变量 
重新 编码 ,在 数据 框 里 生成 一 个 新 的 变量 是 很 好 的 编程 习惯 。 例 如 : 

> Squid$fLocation <- factor (Squid$Location) 

> Squid$fSex <- factor(Squid$Sex) 

这 两 个 命令 生成 数据 框 Squid 里 的 两 个 新 变量 fLocation 和 fSex。 在 
变量 名 前 使 用 提醒 我 们 它们 是 名 义 变量 。 在 R 里 ,我 们 也 可 以 称 它 们 为 
因子 ,因此 用 f。 输入 

> squidsfsex 
EL] 人 22 2 人 3222 


{18] 2222221222222 
135] .2 2 2 全 222 22 


NN 
DN 
NN 

NNN 


126021 汪 . 放 二 二 妆 -全 和 2 
[E261 文人 久生 证 和 TL 
[L2636] /名 二.2.14 和 主 

Levels: 1 2 


请 注意 最 后 的 额外 一 行 。 告 诉 我 们 fSex 有 两 个 水 平 ,1 和 2。 也 可 以 
重新 标记 这 些 水 平 为 “雄性 ”和 * 肉 性 ”, 或 者 ,可 以 更 简洁 地 用 M 和 下 ， 


P 
DN 
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> Squid$fSex <- factor(Squid$Ssex, levels = c(1, 2), 
c{"M", 
> Squid$fSex 


labels 


[1] FF 
[18] FF 
[35] F F 


[2602] M 


[2619] M 
[2636] M 


Levels: MF 


F 


所 
下 


FFF 
FFF 
FFF 


FMMEF 
FFMM 
F MBEM 


站 加 四 
四 四 四 
四 岂可 
四 站 加 
四 四 四 
四 中 四 
四 由 加 
吕 四 加 
四 四 可 


站 区 拉 


ME 


M ME 
MMMMM 
MMM 


四 四 可 
四 四 四 


MMFMMEF 
M 


每 个 1 都 被 转换 成 一 个 “M”, 每 个 2 都 被 转换 成 一 个 “F”。 现 在 你 可 
以 在 函数 比如 lm 或 者 boxplot 里 使 用 fSex: 


> boxplot (GST ~ fSex, data = Squid) #Result not shown 
> MI <- lm(GSI ~ fSex + fLocation, data = Squid) 


另外 一 个 使 用 预先 定义 的 名 义 变量 的 优点 是 在 线性 回归 函数 里 它 使 
输出 变 得 更 短 。 尽 管 我 们 这 里 不 显示 输出 结果 ,比较 下 面 命令 的 结果 。 


> summary (M1) 


> M2 <- lm(GSI ~ factor(Sex) + factor(Location), 
data = Squid) 


> summary (M2) 


估计 的 参数 是 相同 的 ,但 是 第 二 个 模型 在 屏幕 (或 者 在 纸 ) 上 需要 更 多 
的 空间 。 这 对 于 二 阶 或 者 三 阶 交互 作用 项 将 是 一 个 严重 的 问题 。 

除了 命令 factor, 你 也 可 以 使 用 as. factor。 为 了 把 因子 转换 成 数值 
向 量 ,可 以 使 用 as. numeric。 这 在 画图 时 把 雄性 和 峻 性 绘制 不 同 的 颜色 是 
很 有 用 的 (如 果 因 为 某 种 原因 你 已 经 忘记 原始 向 量 、 性 别 )。 也 可 以 参见 第 


5 章 。 


对 fLocation 也 可 以 这 样 做 : 


> Squid$fLocation 


和 
CD 1 SL L111 
135] 和 直入 3 
0 和 
[2619] 11111111111 
[2636] 111111111 
Levels: 1 23 4 

请 注意 这 个 名 义 变量 有 四 个 水 平 。 


全 w 
- - 
- - 
PP pp 
P 


在 这 种 情况 下 ,水 平 值 由 小 到 大 进 


P.73 
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行 排序 。 这 意味 着 在 盒 形 图 里 ,位 置 为 1 的 数据 与 位 置 为 2 的 数据 相 邻 ,位 
置 为 2 的 与 位 置 为 3 的 相 邻 , 等 等 。 有 时 改变 顺序 是 有 用 的 (例如 ,lattice 
包 里 的 xyplot 函数 )。 这 可 以 通过 如 下 完成 。 


> Squid$fLocation <- factor(Squid$Location, 
levels = c(2, 3, 1, 4)) 


> Squid$fLocation 
0 
1 
本 


本 
和 
PP 
本 
号 
项 
- 
全 
b 
P 


[2602] 111111111111111 
[2619] 11111 
[2636] 1 11111111 
Levels: 2314 


数据 值 是 相同 的 ,但 是 命令 比如 
> boxplot (GST ~ fLocation, data = Squid) 
生成 一 个 稍微 不 同 的 盒 形 图 ,因为 水 平 的 顺序 不 同 。 重 置 水 平 对 处 理 线性 
回归 里 的 posthoc 检验 也 是 有 用 的 (Dalgaard,2002 的 第 10 章 ) 。 

我 们 在 本 章 开始 选择 雄性 数据 : 


> SquidM <- squid[Squid$sex == 1, J 

使 用 fSex 我 们 也 可 以 这 样 做 ,但 是 现在 我 们 需要 ， 
> SquidM <- squid[Squid$fsex == "1", J 

围绕 1 的 双 引号 是 必须 的 ,因为 fSex 是 因子 。 定 义 一 个 新 的 名 义 变量 
的 效果 也 可 以 通过 str 命令 观察 到 : 


> Squid$fSex <- factor(Squid$Sex, labels = c("M", "F")) 
> Squid$fLocation <- factor(Squid$Location) 
> str(Squid) 


人 
吕 
PP 
PP 
四 
PP 
- 
- 
pb 
Pp 





“data.frame' : 2644 obs. of 8 variables: 

$ Sample nant 2343.678 9 

$ Year :int 1111111111 筷 

$ Month 人 

$ Location y int 1311111331. 

$ Sex trantb 2.2.2 2 .22 232 

$ GSI : num 10.44 9.83 9.74 9.31 8.99 ... 

$ fSex : Factor w/ 2 levels "M","F": 22222.. 
$ fLocation: Factor w/ 4 levels "1","2","3","4": 1 ... 


请 注意 现在 fSex 和 fLocation 是 因子 (分 类 变量 ) ,水平 如 上 所 示 。 现 
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在 任何 函数 将 把 它们 看 作 因子 ,因此 不 需要 再 对 这 两 个 变量 使 用 factor 命 
令 。 


完成 3. 7 节 的 习题 4。 这 是 一 个 利用 factor 函数 并 使 用 深海 研 P.74 
究 数据 集 的 习题 。 


3.6 我 们 学 习 了 哪些 R 函数 ? 


表 3.1 列 出 了 本 章 介绍 的 R 函数 。 
表 3.1 本 章 介绍 的 R 函数 








函 数 功 能 示 例 
write.table ”把 一 个 变量 写 人 到 ascii 文件 write. table(Z,file = "test. txt") 
order 确定 数据 的 顺序 order(x) 
merge 合并 两 个 数据 框 merge(x,y,by = "ID") 
attach 使 数据 框 里 的 变量 可 以 利用 。 attach(MYData) 
str 显示 一 个 对 象 的 内 部 结构 str(MyData) 
factor 定义 变量 作为 因子 factor(x) 
3.7 习题 


习题 1. 使 用 流行 病 学 数据 练习 使 用 read. table 函数 并 访问 数据 框 里 的 变 
量 。 


文件 BirdFlu. zls 包含 世界 卫生 组 织 (WHO) 报 告 的 一 些 国家 已 经 证 
实 的 每 年 人 类 感染 禽 流 感 A/(H5N1) 的 病例 。 数 据 来 自 于 WHO 网 站 
(www. who. int/en/) ,复制 是 为 了 教育 的 目的 。 准 备 电 子 数据 表 并 把 这 些 
数据 载 人 到 R。 如 果 你 不 是 Windows 用 户 , 从 文件 BirdFiu. txt 开始 。 请 
注意 你 需要 调整 列 名 称 以 及 一 些 国家 的 名 称 。 

在 民 里 使 用 names 和 str 命令 观察 这 些 数据 。 输 出 2003 年 禽 流 感 病 
例 数 。2003 年 和 2005 年 禽 流感 病例 总 数 是 多 少 ? 哪个 国家 的 病例 最 多 ? 
哪个 国家 禽 流 感 死亡 的 人 数 最 少 ? 

使 用 第 2 章 的 方法 ,每 个 国家 的 禽 流感 病例 总 数 是 多 少 ? 每 年 的 禽 流 
感 病例 总 数 是 多 少 ? 
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习题 2. 使 用 深海 研究 数据 练习 使 用 read. table 函数 并 访问 数据 框 里 的 子 
集 。 


如 果 你 还 没有 完成 第 2 章 的 习题 6, 做 完 它 , 并 从 ISIT. zis 文件 载 人 
数据 。 

在 R 里 ,从 站 点 1 提取 数据 。 这 个 站 点 有 多 少 个 观察 值 ? 站 点 1 的 样 
品 深度 的 最 小 值 .中 位 值 、 均 值 和 最 大 值 分 别 是 多 少 ? 站 点 2 的 样品 深度 
的 最 小 值 ,中 位 值 ,均值 和 最 大 值 分 别 是 多 少 ? 站 点 3 呢 ? 

确定 观察 值 相对 较 少 的 站 点 ,生成 一 个 忽略 这 些 站 点 的 新 数据 框 。 

提取 来 自 2002 年 的 数据 。 提 取 来 自 4 月 (所 有 年 份 ) 的 数据 。 提 取 在 
深度 超过 2000 米 测 量 的 数据 (来 自 所 有 年 份 和 月 份 )。 根 据 深 度 值 的 增 序 
显示 这 些 数据 。 

显示 在 4 月 份 并 且 深 度 超过 2000 米 的 测量 数据 。 


习题 3. 使 用 深海 研究 数据 练习 使 用 write. table 函数 。 


在 上 一 个 习题 的 最 后 一 步 ,提取 了 在 4 月 份 并 且 深 度 超过 2000 米 的 测 
量 数据 。 把 这 些 数据 输出 到 一 个 新 的 ascii 文件 。 


习题 4， 使 用 深海 研究 数据 练习 使 用 factor 函数 并 访问 数据 框 里 的 子 集 。 
站 点 1 到 5 是 2001 年 4 月 抽样 ,站 点 6 到 11 是 2001 年 8 月 抽样 ,站 
点 12 到 15 是 2002 年 3 月 抽样 ,站 点 16 到 19 是 2002 年 10 月 抽样 。 在 RR 


里 生成 两 个 新 的 变量 确定 月 份 和 年 份 。 请 注意 这 些 是 因子 。 把 新 的 变量 
添加 到 数据 框 里 。 


简单 的 贸 数 


在 前 面 的 章节 中 ,我 们 阐述 了 如 何 输入 数据 ,从 电子 数据 表 、ascii 文件 
或 者 数据 库 中 读 取 数 据 ,以 及 提取 数据 子 集 。 这 一 章 中 ,我 们 主要 讨论 应 
用 一 些 简单 的 函数 来 处 理 数据 ,例如 均值 或 者 单个 数据 子 集 的 均值 。 这 些 
函数 将 会 是 很 有 用 的 ,但 是 , 却 不 能 使 你 真正 的 深入 了 解 和 使 用 R, 仅 在 方 
便 的 情况 下 使 用 它们 就 足够 了 。 初 学 者 可 以 跳 过 这 一 部 分 内 容 。 


4.1 tapply 函数 


R 提供 了 计算 单 变量 、 多 变量 或 观察 值 子 集 的 均值 .长 度 、 标 准 差 、 最 
小 值 ` 最 大 值 方差 等 的 函数 。 为 了 说 明 一 点 ,我 们 选用 一 个 植物 数据 集 ， 
这 些 数 据 来 自 Sikkink 等 人 (2007) 对 两 个 温带 群落 ,美国 黄石 国家 公园 和 
国家 野牛 保护 区 的 草原 数据 的 监测 分 析 。 这 项 研究 的 目的 是 确定 过 去 一 
段 时 间 从 生 禾 草 群 落 的 生物 多 样 性 是 否 发 生 改 变 , 如 果 改 变 , 那 么 是 否 和 
环境 因素 有 关 。 针 对 我 们 的 研究 目的 ,我 们 仅 使 用 黄石 公园 的 数据 。 为 了 
量化 生物 多 样 性 ,研究 者 计算 了 物种 丰富 度 , 这 种 丰富 度 以 每 个 地 点 的 不 
同 种 群 数量 来 定义 。 研 究 识 别 出 了 大 约 90 个 物种 ,这 些 数据 来 自 8 个 时 间 
截面 ,每 个 截面 大 约 是 4 一 10 年 ,总 共 选 取 58 个 观察 值 。 

下 面 的 代码 可 以 实现 载 人 数据 ,并 获得 变量 的 一 些 基本 信息 。 
> setwd("C:/RBook/") 
> Veg <- read.table (file="Vegetation2.txt", 


header= TRUE) 
> names (Veg) 


Pp.77 
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[1] "TransectName"” "Samples" "Transect" 

[4] "Time" mR "ROCK" 

[7] "LITTER" "ML™ "BARESOIL" 

[10] “FallPrec" "SprPrec™" "SumPrec" 

[13] "WinPrecn "FallTmax" "SprTmax" 

[16] "SumTmax" "WinTmax" "FallTmin" 

[19] "SprTmin™" "SumTmin™" "WinTmin™ 

[22] "PCTSAND" "PCTSILT" "PCTOrgC™ 

> str(Veg) 

‘data. frame’ : 58 obs. of 24 variables: 

$ TransectName: Factor w/ 58 levels ... 

$ Samples 0 wi 

$ Transect 和 

$ Time int 1958 1962 1967 1974 1981 1994... 
$R int 8 6881076586... 

$ ROCK num 27 26 30 18 23 26 39 25 24 21 ... 
$ LITTER : num 30 20 24 35 22 26 19 26 24 16 ... 


< 为 了 节省 空间 截至 此 处 二 


这 些 数据 被 存储 在 名 为 “Vegetation2. txt” 的 ascii 文件 中 ,执行 read. 
table 函数 的 前 提 条 件 是 物种 丰富 度 必须 是 数值 型 的 向 量 或 者 整数 ,如 果 
由 于 某 些 原因 导致 R 以 字符 型 (例如 在 列 中 出 现 了 混合 符号 码 ,或 者 小 数 
点 分 隔 符 出 现 了 问题 ) 的 数据 载 人 了 丰富 度 ,一 些 函数 比如 mean, sd 等 将 会 
给 出 错误 信息 了。 


4.1.1 计算 每 个 时 间 截 面 的 均值 


载 人 数据 后 ,我 们 首先 想 知道 的 就 是 每 个 时 间 截 面 的 平均 丰富 度 是 否 
相同 ,以 下 代码 计算 了 每 个 截面 的 平均 丰富 度 和 总 的 平均 丰富 度 ( 数 据 子 
集 的 选取 可 参见 第 3 章 ): 
> m <- mean (Veg$R) 
> ml<- mean (Veg$R [Veg$Transect 


> m2<- mean (Veg$R [Veg$Transect 
> m3<- mean (Veg$R [Veg$Transect 





@ 如果 你 在 默认 的 设置 下 (也 就 是 点 作为 小 数 点 ) 使 用 逗号 作为 小 数 点 进行 载 和 数据 ,那么 RR 将 
把 所 有 的 变量 当 作 字 符 ,str 命令 可 以 验证 这 一 点 ,因此 ,为 了 验证 数据 载 人 的 正确 性 ,我 们 建 
议 载 人 数据 之 后 对 其 使 用 str 命令 。 
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> m4<- mean (Veg$R [Veg$Transect == 4]) 
> m5<- mean (Veg$R [Veg$Transect == 5]) 
> m6<- mean (Veg$R [Veg$Transect == 6]) 
> m7<- mean (Veg$R [Veg$Transect == 7]) 
> m8<- mean (Veg$R [Veg$Transect == 8]) 
> c(m, ml, m2, m3, m4, m5, m6, m7, m8) 


[1] 9.965517 7.571429 6.142857 10.375000 9.250000 
[6] 12.375000 11.500000 10.500000 11.833333 


变量 表示 所 有 8 个 时 间 截 面 的 平均 丰富 度 ,ml 到 m8 表示 了 每 个 时 
间 截 面 的 平均 丰富 度 。 需 要 注意 的 是 mean 命令 使 用 的 对 象 是 数据 向 量 
Veg$ R, 它 不 是 一 个 矩阵 ,所 以 没有 必要 在 方 括号 之 间 加 入 逗号 。 
4.1.2 更 高 效 地 计算 每 个 时 间 截面 的 均值 

输入 8 个 命令 来 计算 每 个 时 间 截 面 的 均值 是 一 件 非常 麻烦 的 事情 ,R 
中 的 tapply 函数 同样 可 以 完成 上 面 的 操作 (从 ml 到 m8) ,并且 只 需要 一 行 
代码 : 


> tapply (Veg$R, Veg$Transect, mean) 
1 


2 于 4 5 
7.571429 “6.142857 10.375000 9.250000 12.375000 
6 7 8 
11.500000 10.500000 11.833333 
这 个 代码 还 可 以 写 为 : 


> tapply(X = Veg$R, INDEX = Veg$Transect, FUN = mean) 


tapply 函数 根据 第 二 个 变量 (Transect) 的 不 同 水 平 对 第 一 个 变量 (R) 
进行 了 求 均值 运算 。 对 于 每 一 个 数据 子 集 , 除 了 这 里 的 求 均值 运算 外 ,我 
们 还 可 以 对 其 求 标准 差 (sd 函数 ) ,方差 (var 函数 ) ,长 度 (length 函数 ) 等 
操作 。 以 下 代码 计算 了 上 述 植物 数据 的 一 些 函 数 操作 。 


Me <- tapply (Veg$R, Veg$Transect, mean) 
Sd <- tapply (Veg$R, Veg$Transect, sd) 
Le <- tapply (Veg$R, Veg$Transect, length) 
cbind (Me, Sd, Le) 

Me Sd Lt 
1 7.571429 1.3972763 
6.142857 0.8997354 
10.375000 3.5831949 


vvvv 


wD 
mJJ0 
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4 9.250000 2.3145502 
5 12.375000 2.1339099 
6 11.500000 2.2677868 
7 10.500000 3.1464265 
8 11.833333 2.7141604 


maomoo 


结果 的 每 一 行 分 别 给 出 了 平均 丰富 度 ,标准 差 和 每 个 截面 观察 值 的 个 
数 ,在 后 面 的 章节 中 我 们 将 讨论 使 用 作 图 工具 对 这 些 数值 进行 可 视 化 。 


4.2 sapply 函数 和 1lapply 函数 


为 了 计算 整个 序列 的 均值 .最 小 值 ` 最 大 值 . 标 准 差 . 长 度 等 ,我 们 仍然 
需要 使 用 mean(Veg $ R) ,min(Veg $ R) ,max(Veg $ R) ,sd(Veg $ R) 和 length 
(Veg $ R) 函 数 。 如 果 想 要 计算 大 量 数据 的 均值 ,例如 上 述 这 些 植物 数据 中 
的 所 有 数值 变量 的 均值 时 ,这 种 方法 将 是 很 繁琐 的 。 这 里 强调 “数值 数据 ” 
是 提醒 大 家 字符 是 不 能 计算 均值 的 。 在 上 述 植物 数据 中 共有 20 个 数值 变 
量 , 数 据 框 veg 的 5 一 249 列 。 但 是 ,我 们 并 不 需要 输入 20 次 mean 命令 ,R 
提供 了 其 它 类 似 于 tapply 的 函数 来 处 理 这 种 问题 ;lapply 函数 和 sapply 
函数 。sapply 函数 的 使 用 及 其 输出 如 下 所 示 : 
> sapply(Veg[, 5:9], FUN= mean) 

R ROCK LITTER ML BARESOIL 
9.965517 20.991379 22.853448 1.086207 17.594828 

为 了 节省 空间 ,我 们 仅仅 计算 了 前 5 个 变量 的 结果 。 需 要 注意 的 是 
tapply 函数 计算 的 是 一 个 变量 观察 值 子 集 的 均值 (或 其 它 函 数 ) ,而 lapply 
和 sapply 函数 计算 的 是 一 个 或 多 个 变量 全 部 观察 值 的 均值 (或 其 它 函 数 ) 。 

单词 FUN 代表 函数 (function), 它 必须 大 写 。 除 了 均值 (mean) 之 外 ， 
你 还 可 以 选择 其 它 任何 函数 作为 FUN 的 参数 ,甚至 自己 编 的 函数 。 那 么 
lapply 和 sapply 有 什么 区 别 呢 ? 它们 主要 的 区 别 在 于 输出 的 不 同 ,如 下 
面 的 例子 所 示 : 
> lapply (Veg[, 5:9], FUN= mean) 
ht 9.965517 


SROCK 
[1] 20.99138 


@ 原文 为 5 一 25, 似 有 误 。 一 一 译 者 注 
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$LITTER 
[1] 22.85345 
$ML 
[1] 1.086207 
$BARESOIL 
[1] 17.59483 
lapply 函数 的 输出 是 一 个 列表 ,然而 sapply 函数 的 输出 是 一 个 向 量 ， 
我 们 可 以 根据 对 输出 格式 的 要 求 来 选择 适当 的 函数 。 
lapply 和 sapply 中 包含 数据 的 变量 必须 是 数据 框 ,以 下 这 种 格式 是 
错误 的 : 
> sapply(cbind(Veg$R, Veg$ROCK, Veg$LITTER, Veg$ML, 
Veg$BARESOIL), FUN = mean) 
上 述 命令 的 结果 将 是 一 个 很 长 的 数据 向 量 , 原 因 在 于 cbind 命令 的 输 
出 不 是 数据 框 。 但 是 ,我 们 可 以 很 容易 的 将 其 变 为 数据 框 : 
> sapply (data.frame (chind (Veg$R, Veg$ROCK, Veg$LITTER, 
Veg$ML, Veg$BARESOIL)), FUN = mean) 
X1 X2 X3 X4 X5 
9.965517 20.991379 22.853448 1.086207 17.594828 
注意 到 这 样 做 我 们 将 丢失 变量 标签 。 为 了 避免 发 生 这 种 情况 ,可 以 在 
运行 sapply 函数 前 先生 成 一 个 合适 的 数据 框 ( 见 第 2 章 ) ,或 者 可 以 选择 在 
使 用 cbind 函数 结合 完 数据 后 再 用 colnames 函数 来 加 上 标签 。 


[gi 完成 4.6 节 的 习题 |。 这 是 一 个 对 温度 数据 集 使 用 tapply， 
sapply 和 lapply 函数 的 练习 。 


4.3 ” summary 困 数 


另外 一 个 可 以 提供 变量 信息 的 函数 就 是 sunmary 命令 , 它 的 参数 可 以 
是 一 个 变量 ,cbind 命令 的 输出 ,或 者 数据 框 。 可 以 使 用 如 下 的 命令 来 运行 


它 : 

> 2 <-cbind(Veg$R, Veg$ROCK, Veg$LITTER) 
> colnames (2) <- c("R", "ROCK", "LITTER") 
> summary (2) 


P.84 
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及 ROCK LITTER 
Min. : 5.000 Min. : 0.00 Min. 890 
lst Qu. : 8.000 1st Qu, : 7.25 lst Qu. :17.00 
Median :10.000 Median :18.50 Median :23.00 


Mean : 9.966 Mean :20.99 Mean :22.85 
3rd Qu. :12.000 3rd Qu. :27.00 3rd Qu. :28.75 
Max. :18.000 Max. :59.00 Max. :51.00 


summary 命令 的 结果 给 出 了 变量 的 最 小 值 .第 一 四 分 位 数 . 中 位 数 、. 平 
均值 ,第 三 四 分 位 数 和 最 大 值 。 下 面 的 命令 可 以 实现 同样 的 功能 : 


> summary(Veg[ , c("R","ROCK", "LITTER")]) 
或 者 
> summary{(Veg[ , c(5, 6, 7)7) 


结果 这 里 就 不 再 著述 。 
4.4 table 困 数 


在 2.4 节 的 习题 1 和 7 中 ,我 们 引入 了 Vicente 等 人 (2006) 的 鹿 的 数 
据 , 这 些 数 据 来 源 于 不 同 的 农场 月份 ,年份 和 性 别 。 这 项 研究 的 一 个 目的 
就 是 找 出 寄生 虫 E. cervi 的 数量 和 动物 长 度 的 关系 ,这 种 关系 可 能 和 性 别 、 
年 份 月 份 ,农场 的 变化 都 有 关系 。 为 了 验证 这 一 点 ,统计 模型 中 就 需要 包 
括 这 些 相互 作 用 。 然 而 ,如 果 某 些 年 份 没有 进行 肉 性 的 抽样 ,或 者 某 些 年 
份 一 些 农场 没有 提供 抽样 ,问题 就 会 出 现 。table 函数 的 作用 是 用 来 了 解 
每 个 农场 提供 抽样 动物 的 数量 ,每 个 性 别 和 年 份 观察 值 的 数量 。 以 下 代码 
载 人 了 这 些 数据 ,并 且 给 出 了 相应 的 结果 : 


> setwd("c:/RBook/") 

> Deer <- read.table (file="Deer.txt", header= TRUE) 

> names (Deer) 

[1] "Farm™ "Month" "Year" “Sex” "clasl 4" 
Le MGT® "KFI™ "Ecervi" mp 本 


> str(Deer) 


[1] "Farm" "Month" "Year" "Sex" "clasl_4" 
[6] "LCT™ "KFI" "Ecervi" “ey 
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> str(Deer) 


‘data.frame’ : 1182 obs. of 9 variables: 





$ Farm : Factor w/ 27 levels"AL","AU","BA" 

$ Month : int 10 10 10 10 10 10 10 10 10 10 ... 

$ Year : int 0000000000... 

$ Sex Dp 

$ clasl 4 : int 4434444444... 

$ LCT : num 191 180 192 196 204 190 196 200 19 ... 
$ KFI : num 20.4 16.4 15.9 17.3 NA ... 

$ Ecervi :num002.380001.2100.80... 

$ Tb : int 0000NAONA1l100... 


农场 分 别 用 代码 AL,AU 等 表示 ,它们 自动 地 被 以 字符 的 形式 载 人 ， 
其 它 变量 都 是 数值 或 者 整数 的 向 量 。 每 个 农场 的 观察 值 数量 可 以 这 样 来 
获得 : 


> table (Deer$Farm) 
AL RAU BA BE CB CRC HB LV IN MAN MB 


15 37 98 45 93' 16 35 人 34 76 41 
MO NC NV PA PN QM RF RN RO SAL SAU 
278 32 35 11 45 75 34 25 44 至 3 


SE TE TN VISO VY 
26 21 31 15 40 


可 以 看 到 ,有 的 农场 抽取 了 278 个 样本 ,而 有 的 农场 仅 抽取 了 1 个 样 
本 。 这 个 数据 集 通 常 需要 一 个 混合 效应 模型 ?来 描述 ,其 中 农场 具有 随机 
效应 ( 见 Zuur 等 ,2009)。 这 种 方法 可 以 处 理 非 平 衡 设计 。 但 是 ,模型 中 包 
含 性 别 /年 份 相互 作用 项 2 的 数据 将 会 给 出 错误 信息 ,原因 在 于 并 不 是 每 一 
年 都 检测 了 两 种 性 别 的 动物 ,如 下 列 联 表 所 示 ( 表 中 水 平方 向 的 0,1,2,3， 
4,5,99 分 别 代表 2000,2001,2002,2003,2004,2005 和 1999, 垂 直方 向 上 的 
1 和 2 代表 不 同性 别 ) 。 


> table(Deer5Sex，Deer5Syear) 
0 1 2 37 4 5 .99 
1 115 85 154 75 78 34 21 
2 76 40 197 123 60 35 0 
在 1999 年 ,只 有 一 种 性 别 的 动物 被 检测 了 。 我 们 建议 在 回归 模型 包 
含 了 两 个 名 义 变量 相互 影响 之 前 使 用 table 函数 。 


@ 混合 效应 模型 是 线性 回归 的 一 种 推广 。 
@@ “性别 /年 份 相互 作用 项 描述 不 同年 份 对 于 性 别 的 不 同 影响 - 
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P.84 Lg 完成 4. 6 节 的 习题 2。 这 是 一 个 对 温度 数据 使 用 table 函数 的 
练习 。 S 


4.5 我 们 学 习 了 哪些 R 函数 ? 


表 4.1 列 出 了 本 章 所 介绍 的 R 函数 。 
甫 4.1 本 章 所 介绍 的 R 函数 








函 数 功 能 示 例 
tapply 根据 x 的 不 同 水 平 对 y 使 用 FUN 的 函数 tapply(y,x,FUN = mean) 
Sapply 对 y 的 每 一 个 变量 使 用 FUN 的 函数 sapply(y,FUN = mean) 
lapply 对 y 的 每 一 个 变量 使 用 FUN 的 函数 lapply(y,FUN = mean) 
sd 计算 y 的 标准 差 sd(y) 
length 确定 y 的 长 度 length(y) 
Sunmary 计算 基本 信息 summary(y) 
table 计算 列 联 表 table(x,y) 
4.6 习题 


习题 1. 使 用 tapply,sapply 和 lapply 函数 来 计算 每 个 月 的 平均 温度 。 


文件 temperature. zls 包含 了 荷兰 海岸 线 上 31 个 不 同 地 点 的 温度 观察 
值 。 这 些 数据 由 荷兰 RIKZ 研究 院 (MWTL 监测 项 目 : Monitoring 
Waterstaatkundige Toestand des Lands) 收集 并 提供 。 抽 样 开 始 于 1990 
年 ,结束 于 2005 年 12 月 ,为 期 16 年 。 根 据 季节 的 不 同 , 抽 样 频率 为 每 个 月 
0~4 次 。 

以 月 为 单位 计算 所 有 观察 点 的 温度 平均 值 ,其 最 终结 果 将 是 一 个 维 数 
为 16X12 的 变量 ,再 计算 一 下 每 个 月 的 观察 值 的 标准 差 和 数量 。 


习题 2. 使 用 table 函数 来 处 理 温度 数据 。 


使 用 习题 1 中 的 数据 ,确定 每 个 观察 点 的 观察 值 数量 。 每 年 记录 了 多 
少 个 观察 值 ? 每 个 观察 点 每 年 记录 了 多 少 观察 值 ? 


基础 绘图 工具 简介 


我 们 已 经 示范 了 使 用 R 工具 进行 输入 数据 ` 处 理 数据 提取 数据 子 集 
以 及 进行 一 些 简单 的 计算 ,比如 求 均值 .方差 ,标准 差 以 及 类 似 的 运算 。 本 
章 我 们 介绍 基础 的 绘图 工具 。 如 果 你 只 对 简单 的 绘图 感 兴趣 ,那么 本 章 就 
足够 了 。 然 而 ,如 果 创 建 更 复杂 的 图 形 , 或 者 在 基础 图 形 上 增加 复杂 的 修 
饰 比如 刻度 线 记 号 ,或 者 专门 的 字体 和 字体 大 小 ,你 需要 第 7 章 和 第 8 章 里 
给 出 的 更 多 的 高 级 绘图 技巧 。 

在 这 个 阶段 似乎 不 适合 讨论 基础 绘图 工具 ,而 是 应 该 在 第 7 章 开始 的 
绘图 部 分 里 探讨 。 然 而 , 当 讲 授 本 书 提 供 的 一 些 材料 时 ,我 们 意识 到 ,讨论 
了 前 4 章 相对 呆板 的 材料 后 ,课程 参与 者 急于 了 解 生动 .更 直观 ,更 容易 的 
绘图 工具 。 因 此 这 里 我 们 第 一 次 了 解 绘图 。 这 使 得 在 下 一 章 可 以 借助 交 
互 工具 比如 plot 函数 介绍 更 复杂 的 主题 。 


5.1 plot 困 数 


本 节 使 用 第 4 章 介绍 的 植物 数据 。 回 忆 这 些 草原 数据 ,来 自 于 一 个 监 
测 项 目 管理 的 美国 两 个 温带 群落 黄石 国家 公园 和 国家 野牛 保护 区 。 为 了 
量化 生物 多 样 性 ,计算 物种 丰富 度 。 在 统计 分 析 里 ,我 们 想 要 给 出 丰富 度 
作为 BARESOIL( 或 者 任意 其 它 的 土壤 和 气候 变量 ) 的 函数 。 假 设 我 们 想 绘 
制 物 种 丰富 度 对 底层 变量 “裸露 土壤 "定义 为 BARESOIL, 的 图 形 。 创 建 这 样 
的 一 个 图 形 的 R 命令 是 
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> setwd("c:/RBook/™) 

> Veg <- read.table (file = "Vegetation2.txt", 
header = TRUE) 

> plot (Veg$BARESOIL, Veg$R) 
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图 5.1 图 形 显示 的 是 植物 数据 中 裸露 土壤 (BARESOIL) 对 物种 丰富 度 的 散 点 图 。 
为 了 把 图 形 从 R 输入 到 微软 Word 中 ,在 R 里 的 图 形 上 右 击 复制 并 粘 
贴 到 Word 里 ,或 者 把 它 存 为 图 元 文件 (推荐 ,因为 它 能 生成 高 质量 的 图 
形 ), 位 图 或 者 postscript 文件 。 非 Windows 操作 系统 也 可 以 如 此 操作 。 
后 两 种 格式 输入 到 Word 更 复杂 一 些 。 如 果 R 控制 台 窗口 (图 1. 5) 是 
最 大 化 的 ,你 可 能 看 不 到 图 形 面 板 。 为 了 得 到 图 形 ,同时 单 击 Control 
和 Tab 键 ,或 者 最 小 化 R 控制 台 


结果 图 形 如 图 5. 1 所 示 。plot 命令 的 第 一 个 参数 显示 在 水 平 轴 上 ,第 
二 个 参数 显示 在 垂直 轴 上 。 这 个 例子 中 丰富 度 是 反应 变量 或 者 因 变 量 ， 
BARESOIL 是 解释 变量 或 者 自 变量 。 习 惯 上 乘 直 轴 绘 制 反 应 变量 ,水 平 轴 绘 
制 解释 变量 。 请 注意 对 于 R 中 的 一 些 统计 函数 ,你 必须 首先 指定 反应 变 
量 ,然后 是 解释 变量 。 你 应 该 不 是 第 一 次 意外 地 输入 
> plot (Veg$R, Veg$BARESOIL) 


并 且 发 现 这 个 顺序 应 该 被 翻转 。 或 者 ,你 可 以 使 用 
> plot(x = Veg$BARESOIL, y = VegSR) 


以 避免 混 消 哪 个 变量 画 在 z 轴 ( 水 平 ) 上 ,哪个 变量 画 在 y 轴 上 (垂直 )。 
plot 函数 有 一 个 data 参数 ,但 是 我 们 不 能 使 用 


志 
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> plot (BARESOIL, R, data = Veg) 
Error in plot (BARESOIL, R, data = Veg): object 
"BARESOIL" not found 

这 是 不 幸 的 ,并 且 连 使 我 们 使 用 Veg $ 命令 (回忆 第 2 章 我 们 没有 使 用 
attach 命令 ) 。 这 是 我 们 选择 变量 名 称 Veg 代替 较 长 的 vegetation 的 一 
个 (如 果 不 是 唯一 的 一 个 ) 原 因 。 也 可 以 使 用 : 


> plot(R ~ BARESOIL, data = Veg) 


这 也 生成 一 个 图 形 ( 这 里 不 做 显示 ) ,但 是 我 们 反对 这 种 符号 是 因为 一 
些 函 数 中 ,R 一 BARESOIL 符号 是 用 来 告诉 R, 丰 富 度 作为 baresoil 的 函数 。 
尽管 这 里 可 能 是 这 种 情形 ,但 并 不 是 每 个 涉及 变量 的 散 点 图 都 有 一 个 因果 
关系 。 

对 图 形 最 常见 的 修改 是 添加 标题 和 z,y 轴 标 签 以 及 设置 x,y 轴 坐 标 
界限 ,如 图 5. 1 所 示 。 这 个 可 以 通过 扩展 绘图 命令 完成 : 


> plot (x = Veg$BARESOIL, y = Veg$R, 


xlab = "Exposed soil", 
ylab = "Species richness", main = "Scatter plot", 
xlim = c(0, 45), ylim = c(4, 19)) 


结果 图 形 如 图 5. 2A 所 示 。 使 用 文本 编辑 器 建立 2 乘 2 的 无 边界 的 表 
格 把 4 个 面板 (A 一 D) 输 入 到 文本 文件 (微软 Word) 中 (在 第 8 章 示范 了 用 
R 生成 的 多 面板 图 形 ) 。 

在 上 述 命令 中 xlab,ylab,main,xlin 和 ylim 输入 的 顺序 是 无 关 紧要 
的 ,但 是 它们 必须 是 小 写字 母 。 选 项 xlab 和 ylab 应 用 于 标签 ,选项 main 
应 用 于 标题 ,选项 xlin 和 ylim 用 于 指定 坐标 轴 的 上 下 限 。 你 也 可 以 在 绘 
图 命令 中 使 用 : 

xlim = c {min (Veg$BARESOIL), max (Veg$BARESOIL)) 

但 是 ,绘图 命令 里 的 绘图 变量 如 果 有 缺失 值 , 你 应 该 用 选项 na. rm = TRUE 扩 

充 min 和 max 函数。 这样 产生 

xlim = c{min(Veg$BARESOIL, na.rm 
max (Veg$BARESOIL, na.rm 

在 第 7 章 和 第 8 章 里 ,我 们 将 示范 改变 标签 和 标题 的 字体 类 型 和 尺寸 ， 
并 添加 符号 ,比如 仿 等 。 


TRUE), 
TRUE)) 
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图 5.2 不 同 绘图 选项 的 例子 。A: 物 种 丰富 度 (species richness) 对 裸露 土壤 
《BARESOIL) 的 散 点 图 (Scatter plot) 。B: 与 A 同样 的 散 点 图 ,用 实心 国 
(或 者 点 ) 绘 制 观察 值 。C: 与 A 同样 的 散 点 图 ,用 不 同 的 符号 表示 每 个 
截面 的 观察 值 。D: 与 A 同样 的 散 点 图 ,但 是 1975 年 以 前 测量 的 观察 
值 用 空心 园 绘制 ,1975 年 以 后 测量 的 观察 值 用 实心 国 绘制 


5.2 符号 .颜色 和 尺寸 


在 我 们 的 课程 期 间 , 关 于 图 形 最 经 常 问 到 的 问题 是 是 否 可 以 (1) 改 变 
绘图 符号 !(2) 使 用 不 同 的 颜色 ;(3) 根 据 另 一 个 变量 的 值 改 变 绘图 符号 尺 
十 。 本 节 我 们 讨论 这 三 个 问题 ,并 把 更 复杂 的 修改 比如 改变 刻度 标记 、 增 
加 下 标 和 上 标 以 及 其 它 的 修改 放 在 第 7 章 和 第 8 章 。 


5.2.1 改变 绘图 字符 


缺 省 情况 下 ,plot 函数 使 用 空心 圆 (空心 点 ) 作 为 绘图 字符 ,但 是 字符 
可 以 从 另外 大 约 20 个 符号 里 选择 。plot 函数 里 的 pch 选项 具体 指定 绘图 
字符 ; 它 的 缺 省 值 是 1( 指 的 是 空心 点 或 圆 ) 。 图 5. 3 展示 了 这 些 符号 ,它们 
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可 以 通过 pch 取 不 同 的 值得 到 。 对 于 实心 点 ,命令 是 pch - 16。 作 为 一 个 
例子 ,下 面 的 代码 生成 图 5. 2B, 其 中 我 们 用 实心 点 代替 空心 点 。 





50 10e 159 20* 25Y 
4 X 9 @ 148 19e 24A 
3 十 8 米 13 到 18% 230 
2 A 7 四 12 田 17 全 220 
1 9 6v 11 灾 160 210 


图 5.3 这 些 符号 可 以 通过 plot 函数 里 的 pch 选项 得 到 。 符 号 
左边 的 数字 是 pch 的 值 (例如 pch = 16 表示 。) 
> plot(x = Veg$BARESOIL, y = Veg$R, 
xlab = "Exposed soil", 
ylab = "Species richness", main = "Scatter plot", 
xlim = c(0, 45), ylim = c(4, 19), pch = 16) 
在 图 5.2A,B 中 ,所 有 的 观测 值 用 同一 种 绘图 符号 表示 (在 面板 A 中 
空心 圆通 过 缺 省 设置 pch = 1 获得 ,面板 B 中 实心 圆 对 应 pch - 16) 。 
草原 数据 是 在 8 个 截面 上 通过 几 年 时 间 的 测量 得 到 的 。 把 这 个 信息 
加 到 图 5. 2A 里 是 有 帮助 的 。 在 这 点 上 ,就 显示 了 R 的 适应 特性 。 假 设 你 
想 使 用 不 同 的 符号 表示 每 个 截面 的 观察 值 。 为 了 实现 这 点 ,用 一 个 与 
BARESOIL 和 丰富 度 R 具有 相同 长 度 的 数值 向 量 并 且 对 于 截面 1 的 所 有 观 
察 值 该 向 量 取 值 为 1, 对 于 截面 2 的 所 有 观察 值 该 向 量 取 值 为 2, 依 次 类 推 。 
当然 没有 必要 使 用 1,2 等 。 这 个 值 可 以 使 用 任意 有 效 的 pch 数字 (图 5. 3) 。 
你 只 需要 保证 在 一 个 新 的 数值 向 量 里 ,对 单个 截面 的 观察 值 其 所 有 值 是 相 
同 的 ,而 对 于 其 它 截 面 取 值 是 不 同 的 。 这 种 情形 下 你 是 幸运 的 。 变 量 
Transect 已 经 被 编码 为 数字 1 到 8 表示 8 个 截面 。 为 观察 这 点 ,输入 


> VegsTransect 


[1]1111111222222233 3 0 
[23] 4444444455555555666666 
[45] 6 6777777888888 


因此 ,这 里 没有 必要 生成 一 个 新 的 向 量 ; 你 可 以 使 用 变量 Transect( 如 Pp.90 
果 Transect 被 定义 为 因子 这 种 方法 是 不 可 行 的 ,具体 如 下 ): 
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> plot(x = Veg$BARESOIL, y = Veg$R, 
xlab = "Exposed soil", ylab = "Species richness", 
main = "Scatter plot", xlim = c(0, 45), 
ylim = c(4, 19), pch = Veg$Transect) 


结果 图 形 如 图 5. 2C 所 示 。 它 没有 给 出 清晰 的 截面 效果 。 这 不 是 一 个 
好 的 图 形 ,因为 没有 提供 太 多 信息 ,但 是 你 可 以 学 到 基本 的 过 程 。 
使 用 pch = Transect 的 方法 会 有 三 个 潜在 的 问题 : 


1. 如 果 Transect 已 经 被 编码 为 0,1,2 等 ,那么 pch = 0 的 截面 将 不 会 被 绘制 。 

2. 如 果 变 量 Transect 没有 与 BARESOIL 和 丰富 度 R 具有 相同 的 长 度 ,假设 
它 较 短 ;R 在 使 用 pch 选项 时 将 重复 ( 选 代 ) 该 向 量 的 第 一 个 元 素 ,很 明 
显 它 将 产生 一 个 令 人 误解 的 图 形 。 在 我 们 的 例子 中 ,没有 这 样 的 问题 ， 
因为 BARESOIL, 丰富 度 和 截面 具有 相同 的 长 度 。 

3, 在 第 2 章 里 ,我 们 推荐 在 数据 框 里 对 分 类 (或 名 义 ) 变 量 用 factor 命令 
定义 。 如 果 你 选择 一 个 名 义 变量 作为 pch 的 参数 ,R 将 给 出 错误 信息 。 
此 错误 信息 的 描述 如 下 : 

> Veg$fTransect <- factor(Veg$Transect) 

> plot(x = Veg$BARESOIL, y = Veg$R, 

xlab = "Exposed soil", 

ylab "Species richness", main = "Scatter plot", 
xlim c(0, 45), ylim = c(4, 19), 

pch = Veg$fTransect) 


Error in plot.xy(xy, type, ...): invalid plotting symbol 


在 上 面 R 代码 的 第 一 行 ,我 们 定义 fTransect 作为 Veg 数据 框 里 的 一 
个 名 义 变量 ,并 使 用 它 作为 pch 选项 的 参数 。 正 如 你 所 看 到 的 ,R 不 接受 因 
子 作 为 pch 的 参数 ; 它 必须 是 一 个 数值 向 量 。 


5.2.1.1 对 pch 使 用 向 量 

对 pch( 后 面 讨论 col 和 cex 选项 ) 使 用 向 量 会 使 人 混淆 。 

植物 数据 的 测量 时 间 是 1958, 1962,1967,1974,1981, 1989, 1994 和 
2002。 我 们 任意 选取 空心 圆 代表 从 1958 到 1974 的 观察 值 ,实心 圆 代表 
1974 年 以 后 的 观察 值 。 很 明显 ,选项 pch = Veg $ Time 是 不 适合 的 ,因为 它 
试图 使 用 8 个 不 同 的 符号 ,并 且 pch 的 值 1958( 或 者 任意 其 它 的 年 代 ) 是 不 
存在 的 。 我 们 必须 创建 一 个 与 Veg $ Time 长 度 相同 的 数值 向 量 , 当 Time 是 
1958,1962,1967 和 1974 时 该 向 量 取 值 为 1, 是 更 近 的 年 代 时 取 值 为 16。 
选择 值 1 和 16 是 因为 我 们 希望 空心 和 实心 圆 比 其 它 组 合 能 展示 更 强 的 对 
比 性 。 这 里 是 R 代码 (你 也 可 以 使 用 ifelse 命令 在 一 行 里 实现 这 一 点 ): 
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> Veg$Time2 <- Veg$Time 

> Veg$Time2 [Veg$Time <= 1974] <- 1 

> Veg$Time2 [Veg$Time > 1974] <- 16 

> Veg$Time2 

Ll 16 和 6 1 
[16] 11116161616 111 116161616 
[31] 111 11616161611 1 1161616 
[46] 1611 1161616 111161616 


第 一 行 命令 生成 一 个 与 Veg $ Time 长 度 相同 的 新 的 数值 向 量 。 接 下 来 
的 两 行 把 数值 1 和 16 分 配 到 正确 的 位 置 。 剩 余 的 R 代码 是 容易 的 ;在 pch 
选项 里 使 用 Veg $ Time2。 结 果 图 形 如 图 5. 2D 所 示 : 
> plot(x = Veg$BARESOIL, y = Veg$R, 
xlab = "Exposed soil", 
ylab = "Species richness", main = "Scatter Plot"v 
xlim = c(0, 45), ylim = c(4, 19), 
pch = Veg$Time2) 
在 上 面 的 文本 中 ,我 们 提 到 不 能 使 用 pch = Veg $ Time, 因 为 Time 包含 
的 值 在 pch 命令 里 不 是 有 效 的 。 使 用 Veg $ Time 会 出 现 以 下 结果 
> plot (x = Veg$BARESOIL, y = Veg$R, 
xlab = "Exposed soil", 
ylab = "Species richness", main = "Scatter plot", 
xlim = c(0, 45), ylim = c(4, 19), 
pch = Veg$Time) 


There were 50 or more warnings (use warnings() to see 
the first 50) 


> warnings{) 


Warning messages: 


1: In plot.xy(xy, type, ...) : unimplemented pch value 
”1958" 
2: In plot.xy(xy, type, ...) : unimplemented pch value 
”1962? 


3: In plot.xy(xy, type, 
* 1967 





: unimplemented pch value 


4: In plot.xy(xy, type, ...) : unimplemented pch value 
"70 
5: In plot.xy(xy, type, ...) : unimplemented pch value 


"1981’ 


根据 R 的 通知 我 们 输入 warnings()。 警 告 信息 不 言 自明 。 
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要 了 解 更 多 的 pch 选项 ,通过 ? points 命令 查看 帮助 文件 里 的 points 函数 。 
5.2.2 改变 绘图 符号 的 颜色 

改变 绘图 选项 的 颜色 对 图 形 显 示 在 屏幕 或 者 报告 中 是 有 用 的 ,但 在 科 
技 出 版 物 比 较 少 用 ,因为 这 些 最 经 常用 的 是 黑白 打印 。 在 阅读 本 节 前 我 们 
推荐 你 阅读 5. 2. 1 节 , 因 为 改变 颜色 的 过 程 与 改变 符号 是 相同 的 。 

为 了 用 红色 替换 图 5. 2 中 的 黑色 的 点 ,使 用 


> plot(x = Veg$BARESOIL, y = Veg$R, 
xlab = "Exposed soil", 


ylab = "Species richness", main = "Scatter plot", 
xlim = c(0, 45), ylim = c(4, 19), 
col = 2) 


对 于 绿色 ,使 用 col = 3。 运 行 下 面 的 代码 可 以 看 到 其 它 可 以 利用 的 颜色 。 
> = 
> plot (x, col = x) 

因为 本 书 不 是 彩色 页 面 ,所 以 这 里 我 们 不 显示 两 个 命令 的 结果 。 事 实 
上 ,在 R 里 远 不 止 8 种 颜色 可 以 利用 。 使 用 ? pa 命令 打开 par 帮助 文件 ， 
阅读 靠近 底部 的 “颜色 说 明 ” 部 分 。 它 指出 你 可 以 使 用 函数 colors (或 
colours) ,显然 你 可 以 从 上 百 种 颜色 里 选择 。 


5.2.2.1 对 col 使 用 向 量 

你 也 可 以 在 plot 函数 的 col 选项 里 使 用 向 量 。 假 设 你 想 对 从 1958 年 到 
1974 年 的 观察 值 绘制 黑色 实心 方块 而 对 1981 年 到 2002 年 的 观察 值 绘制 红 
色 实 心 圆 (这 里 显示 浅 灰 色 )。 在 前 面 的 章节 ,你 已 经 学 习 了 使 用 变量 Tine2 
取 值 15( 方 块 ) 和 16( 圆 点 ) 如 何 生 成 实心 方块 和 圆 点 。 通 过 类 似 的 R 代码 可 
以 使 用 两 种 颜色 。 首 先 , 生 成 一 个 与 BARESOIL 和 丰富 度 R 具 有 相同 长 度 的 新 
变量 ,把 它 称 为 co12。 对 于 从 1958 年 到 1974 年 的 观察 值 ,Col2 取 值 为 1 (等 
于 黑色 ) ,对 于 接 下 来 的 年 代 ,Col2 取 值 为 2( 等 于 红色 )。R 代码 是 


> Veg$Time2 <- Veg$Time 

VegSTime2 [Veg$Time <= 1974] <- 15 
Veg$Time2 [Veg$Time > 1974] <- 16 
Veg$Co12 <- Veg$Time 

Veg$Co12 [Veg$Time <= 1974] <- 1 
Veg$Co12 [Veg$Time > 1974] <- 2 
Plot(x = Veg$BARESOIL, y = Veg$R, 


vvvvvyv 


xlab = "Exposed soil", 
ylab = "Species richness", main = "Scatter plot", 
xlim = c(0, 45), ylim = c(4, 19), 


Pch = Veg$Time2, col = Veg$Co12) 
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结果 图 形 显示 在 图 5. 4A。 对 pch 选项 问题 的 要 点 也 适用 于 col 选项 。 
如 果 你 使 用 col = 0, 观 察 值 将 不 会 在 白色 背景 的 图 形 里 显示 ;具有 颜色 值 
的 向 量 必须 与 BARESOIL 和 丰富 度 R 具 有 相同 长 度 ; 并 且 你 必须 使 用 该 值 与 
有 R 里 的 一 种 颜色 建立 链接 。 

在 花费 大 量 的 精力 生成 彩色 图 之 前 ,可 能 值得 考虑 的 是 ,在 某 些 人 群 
中 ,8% 的 男性 人 口 是 色 盲 ! 


5.2.3 改变 绘图 符号 的 尺寸 


绘图 符号 的 尺寸 可 以 通过 cex 选项 改变 ,并 且 它 可 以 添加 为 plot 命令 

的 一 个 参数 。cex 缺 省 值 是 1。 在 plot 命令 里 加 入 cex = 1.5 则 会 生成 一 
个 所 有 的 点 都 是 缺 省 尺寸 的 1. 5 倍 的 图 形 ， 
> plot(x = Veg$BARESOIL, y = Veg$R, 

xlab "Exposed soil", ylab = "Species richness", 

main "Scatter plot™", 

xlim c(0, 45), ylim = c(4, 19), 

pch = 16, cex = 1.5) 


我 们 用 实心 圆 。 结 果 图 形 显 示 在 图 5. 4B。 


5.2.3.1 对 cex 使 用 向 量 
正如 pch 和 col 选项 ,我 们 示范 使 用 一 个 向 量 作 为 cex 选项 的 参数 。 p.94 
假设 你 想 使 用 大 的 实心 点 代表 2002 年 的 观察 值 而 用 小 的 实心 点 代表 其 它 
年 份 的 观察 值 绘制 BARESOIL 对 物种 丰富 度 的 图 形 。 生 成 一 个 对 2002 年 的 
观察 值 取 值 为 2 对 其 它 所 有 年 份 的 观察 值 取 值 为 1 的 新 向 量 。 值 1 和 2 是 
好 的 开始 点 ,通过 训练 和 发 现 错误 ,可 以 找到 最 佳 的 不 同 尺 寸 。 通 过 尝试 3 
和 1,1.5 和 1 或 者 2 和 0. 5 等 以 决定 哪 组 看 起 来 最 好 。 
> Veg$Cex2 <- Veg$Time P.95 


> Veg$Cex2[Veg$Time == 2002] <- 2 
> Veg$Cex2[Veg$Time != 2002] <- 1 


使 用 向 量 cex2, 我 们 的 代码 可 以 很 容易 地 调整 : 


> plot(x = Veg$BARESOIL, y = Veg$R, 
xlab = "Exposed soil", ylab = "Species richness", 
main = "Scatter plot", 
xlim = c(0, 45), ylim = c(4, 19), 
pch = 16, cex = Veg$Cex2) 


结果 图 形 显示 在 图 5. 4C。 改 变 符号 尺寸 也 可 以 通过 使 用 cex = 1.5* 
Veg $ Cex2 或 者 cex = Veg $ Cex2/2 完成 。 
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图 5.4 各 种 绘图 命令 的 例子 。A: 物 种 丰富 度 对 裸露 土壤 (BARESOIL) 的 散 点 图 。 黑 色 
实心 方块 代表 1958 年 到 1974 年 的 观察 值 ,而 红色 实心 加 代表 1981 年 到 2002 
年 的 观察 值 。 在 印刷 过 程 中 彩色 转换 为 灰色 。B: 与 图 5. 2A 相同 的 散 点 图 ， 
这 里 所 有 的 观察 值 用 黑色 实心 点 表示 , 它 的 尺寸 是 图 5. 2A 中 点 的 尺寸 的 1. 5 
倍 。C: 与 图 5. 2A 相同 的 散 点 图 ,这 里 来 自 2002 年 的 观察 值 用 图 5. 2A 中 2 倍 
大 小 的 点 表示 


5.3 ”添加 一 条 平滑 线 


从 图 5. 1 很 难看 到 一 种 特征 。 如 果 你 添加 一 条 平滑 线 9 使 物种 丰富 度 
与 BARESOIL 之 间 的 关系 更 加 形象 ,那么 你 想 传递 给 观众 的 信息 将 会 变 得 更 
加 清楚 。 本 书 不 涉及 平滑 的 基本 原则 ,我 们 推荐 感 兴趣 的 读者 参考 Hastie 
和 Tibshirani(1990) ,Wood(2006) ,或 者 Zuur 等 人 (2007) 的 著作 。 


@ 平滑 曲线 是 拟 合 数据 形状 的 一 条 线 。 对 于 我 们 而 言 ,只 要 知道 平滑 曲线 能 捕捉 数据 的 特征 或 
特性 就 足够 了 。 
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下 面 的 代码 应 用 平滑 方法 重新 绘制 图 形 , 并 通过 使 用 lines 命令 在 图 
形 上 添加 合适 的 平滑 线 。 
> plot(x = Veg$BARESOIL, y = Veg$R, 


xlab = "Exposed soil", ylab = "Species richness", 
main = "Scatter plot", xlim = c(0, 45), 
ylim = c(4, 19)) 


> M.Loess <- loess(R ~ BARESOIL, data = Veg) 
> Fit <- fitted(M.Loess) 
> lines (Veg$BARESOIL, Fit) 


结果 图 形 显示 在 图 5. 5A。 命 令 
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图 5.5 A: 与 图 5.2A 相同 的 散 点 图 ,添加 一 个 平滑 曲线 。lines 命令 出 现 了 问题 , 因 
为 襟 露 土壤 (BARESOIL) 没 有 从 低 到 高 排序 。B: 与 图 5. 2A 相同 的 散 点 图 ,但 
是 绘制 了 一 个 合适 的 平滑 曲线 


> M.Loess <- loess(R ~ BARESOIL, data = Veg) 


是 应 用 平滑 方法 的 步骤 , 它 的 输出 保存 在 对 象 .Loess 里 。 为 了 观察 它 由 
什么 组 成 ,输入 : 


> M.Loess 


Call: 

loess (formula = R ~ BARESOIL, data = Veg) 
Number of Observations: 58 

Equivalent Number of Parameters: 4.53 
Residual Standard Error: 2.63 


那 不 是 很 有 用 的 。 因 为 4. Loess 包含 了 很 多 信息 ,这 些 信息 可 以 用 具 
体 的 函数 提取 出 来 。 知 道 合适 的 函数 并 如 何 应 用 将 把 我 们 带 到 统计 领域 ; 
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感 兴趣 的 读者 可 参考 resid,summary 或 者 fitted( 当然 可 以 用 loess) 的 帮 
助 文件 。 

符号 R~ BARESOIL 表示 物种 丰富 度 R 可 以 作为 BARESOIL 的 函数 。 
Loess 函数 允许 使 用 不 同 的 选项 ,比如 平滑 的 数量 ,这 里 我 们 不 做 讨论 因为 
它 将 把 我 们 带 入 更 深 的 统计 领域 。 只 要 我 们 不 进一步 利用 Loess 函数 的 具 
体 选 项 ,R 将 使 用 默认 设置 ,这 能 很 好 地 符合 我 们 的 目的 :绘制 一 个 平滑 曲 
线 。 

Loess 函数 的 输出 ,M.Loess, 被 用 作 fitted 函数 的 输入 。 正 如 名 字 所 
表明 的 ,这 个 函数 提取 拟 合 值 ,我 们 把 它 分 配给 变量 Fit。 最 后 一 个 命令 ， 
> lines(fVeg5SBARESOIL，Fit) 


在 图 形 上 添加 一 条 线 可 以 捕捉 数据 的 主要 特征 并 且 把 它 传递 给 图 形 。 
第 一 个 参数 绘制 横 坐 标 ,第 二 个 参数 绘制 纵 坐 标 。 结 果 图 形 如 图 5. 5A 所 
示 。 然 而 这 个 平滑 曲线 不 是 我 们 所 期 望 的 ,因为 这 些 线 具 有 意大利 面条 的 
形状 (多 条 线 ) 。 这 是 因为 lines 命令 的 第 一 个 参数 是 按照 顺序 连接 点 的 。 
这 里 有 两 种 方法 解决 这 个 问题 。 我 们 可 以 把 BARESOIL 的 值 从 小 到 大 
排序 相应 地 改变 lines 命令 里 第 二 个 参数 的 序列 。 或 者 另 一 种 方法 ,我 们 
可 以 首先 确定 BARESOIL 的 值 的 顺序 并 重新 排列 lines 命令 里 两 个 向 量 的 
值 。 下 面 应 用 第 二 种 方法 ,结果 图 形 如 图 5. 5B 所 示 。 这 里 是 R 代码 。 
> plot(x = Veg$BARESOIL, y = Veg$R, 
xlab = "Exposed soil", 
ylab = "Species richness", main = "Scatter plot", 
xlim = c(0, 45), ylim = c(4, 19)) 
M.Loess <- loess(R ~ BARESOIL, data = Veg) 
Fit <- fitted(M.Loess) 
Ordl1l <- order(Veg$BARESOIL) 
lines (Veg$BARESOIL [Ord1], Fit([Ord1], 
lwd = 3, lty = 2) 
order 命令 用 来 确定 BARESOIL 中 元 素 的 顺序 ,并 允许 在 lines 命令 里 
把 值 由 小 到 大 重新 排列 。 这 里 有 一 个 小 技巧 是 你 只 需要 看 一 次 ,后 面 你 就 
可 以 用 很 多 次 。 我 们 也 在 lines 命令 里 多 添加 两 个 选项 , lwd 和 1ty, 分 别 
表示 线 的 宽度 和 线 的 类 型 。 在 第 7 章 里 有 更 进一步 的 讨论 ,但 是 为 了 观察 
它们 的 效果 ,可 以 改变 数字 并 注意 这 些 改 变 将 在 图 形 里 显示 。 在 lines 命 
令 里 ,col 选项 也 可 以 用 来 改变 颜色 ,但 是 很 明显 pch 选项 没有 这 个 效果 。 
平滑 函数 看 起 来 像 是 表示 BARESOIL 对 物种 丰富 度 有 负 的 影响 。 


vvvv 
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5.4 我 们 学 习 了 哪些 R 函数 ? 


表 5.1 列 出 了 本 章 所 介绍 的 R 函数 。 
表 5.1 本 章 所 介绍 的 R 函数 
函数 功 能 示例 








plot y 对 工 的 图 形 plot (y, x, xlab = " X label", xlin = 
c(0,1),pch = 1,main = "Main", ylim = c 
(0,2),ylab = "Y label" ,col = 1) 


lines 在 已 存在 的 图 形 上 添加 线 lines(x,y,lwd = 3,lty = 1,col = 1) 





order 。 确定 数据 的 顺序 order(x) 
loess ”使 用 LOESS 平 滑 M< - loess(y~x) 
fitted ”得 到 拟 合 值 fitted(M) 

5.5 习题 


习题 1， 对 陆地 生态 数据 使 用 plot 函数 。 


在 Zuur 等 人 (2009) 的 著作 第 16 章 , 有 一 个 研究 是 利用 广义 加 性 混合 p.98 
模型 分 析 葡 萄 牙 的 一 个 路 边 被 杀 死 的 两 栖 动物 的 数量 。 在 这 个 习题 中 ,我 
们 可 以 使 用 plot 命令 看 到 一 部 分 数据 。 打开 文 件 Amphibian_road_ 
Kills. zls, 准 备 一 个 电子 数据 表 , 并 把 数据 输入 到 及 里 。 

变量 ,TOT_N, 是 在 一 个 抽样 地 点 死亡 的 动物 数目 ,OLIVE 是 在 一 个 
抽样 地 点 橄 模 树 的 数目 ,D_Park 是 从 每 一 个 抽样 地 点 到 附近 的 自然 公园 
的 距离 。 生 成 一 个 TOT_N 对 D_Park 的 图 形 。 使 用 适当 的 标签 ,添加 一 
条 平滑 线 。 再 次 画 相同 的 图 形 , 但 是 使 用 的 点 的 尺寸 与 OLIVE 的 值 成 正 
比 (这 个 可 以 显示 是 否 有 OLIVE 的 影响 ) 。 


P.99 


襟 环 与 画 数 


初学 者 可 以 跳 过 这 一 部 分 内 容 ,因为 建立 函数 和 设计 循环 ?并 不 是 R 
的 初学 者 要 学 的 东西 ,除非 你 对 这 些 内 容 有 很 大 的 兴趣 。 一 般 来 说 ,人 们 
认为 这 一 部 分 的 内 容 比 较 难 , 所 以 ,我 们 在 本 章 题 目 中 加 了 星 号 9。 然 而 ， 
一 旦 掌握 了 这 些 工具 ,在 工作 中 我 们 就 可 以 节省 大 量 的 时 间 , 尤 其 是 在 使 
用 相似 命令 处 理 大 批量 数据 时 。 


6.1 循环 简介 


R 的 一 个 主要 优点 就 是 可 以 很 容易 地 自己 编写 函数 ,而 函数 在 很 多 情 
况 下 是 很 有 用 的 。 例 如 ,假设 你 正在 处 理 大 批 的 多 元 数据 集 ,对 于 每 一 个 
数据 你 都 想得到 它们 的 多 样 性 指数 ,这 样 就 有 很 多 多 样 性 指数 需要 计算 。 
如 果 你 幸运 的 话 , 可 能 有 人 已 经 编写 好 了 计算 这 种 多 样 性 指数 的 函数 程 
序 , 如 果 你 足够 幸运 的 话 ,这 样 的 程序 可 能 就 存在 一 个 流行 的 程序 包 中 ,并 
且 软 件 代码 经 过 了 全 面 的 检测 ,没有 bug。 但 是 ,如 果 在 你 没有 找到 能 计算 
这 种 多 样 性 指数 的 代码 时 ,你 就 需要 自己 来 编写 这 个 程序 了 。 

如 果 有 可 能 将 一 种 计算 公式 使 用 不 止 一 次 的 话 , 你 最 好 能 把 这 种 计算 
的 代码 编写 成 相应 的 程序 ,这 样 在 以 后 的 使 用 中 就 会 非常 方便 。 这 些 就 把 
你 带 和 人 了 函数 与 循环 以 及 条 件 语句 的 世界 (比如 if 命令)。 


@ 函数 是 指 能 完成 特殊 任务 的 代码 的 集合 . 
四 ”循环 是 指 重复 地 执行 同一 种 命令 , 它 是 用 选 代 来 执行 的 ( 选 代 是 重复 的 同义词 )。 
图 但 原版 书 标题 没有 加 星 号 。 一 一 译 者 注 
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后 面 的 一 个 例子 使 用 猫头鹰 的 数据 集 绘制 了 大 量 图 形 , 涉 及 的 主要 方 
法 就 是 循环 ,这 个 步骤 对 于 处 理 困难 的 工作 将 是 很 有 价值 的 。 

发 展 这 种 步 又 需要 规划 设计 和 一 些 逻 辑 思维 。 你 需要 像 建 筑 师 那样 
在 建筑 房子 之 前 绘制 出 详细 的 计划 ,不 要 在 没有 全 盘 计 划 之 前 就 急 着 输入 
函数 或 者 循环 的 代码 。 

你 还 需要 考虑 所 设计 函数 的 稳健 性 ,你 是 打算 仅仅 使 用 它 一 次 呢 ? 还 
是 打算 在 若干 年 后 仍 把 它 拿 出 来 处 理 类 似 的 数据 集 ( 当 你 已 经 忘记 了 函数 
中 大 部 分 设置 和 代码 的 含义 )? 你 有 没有 考虑 过 把 它 拿 出 来 和 同事 分 
享 呢 ? 

函数 经 常 都 是 与 循环 同时 出 现 的 ,因为 它们 对 命令 的 智能 化 操作 有 很 
大 帮助 。 

假设 你 有 1000 个 数据 集 , 对 于 每 一 个 数据 集 你 需要 绘制 一 张 图 ,并 把 
它 存 为 jpeg 格式 。 如 果 手 动 完 成 这 个 任务 ,将 花费 很 多 时 间 , 此 时 ,一 个 能 
够 不 需要 人 们 干涉 就 能 自动 执行 任意 次 相同 (或 类 似 ) 命 令 的 装置 就 是 非 
常 有 价值 的 。 循 环 恰好 可 以 用 来 解决 这 种 问题 ,对 1000 个 数据 集 可 以 进 
行 这 样 的 处 理 ， 


i 从 1 变 到 1000 
提取 第 i 个 数据 集 
对 于 第 i 个 数据 集 选取 适当 的 图 像 标签 


针对 第 i 个 数据 集 作 图 
将 第 i 个 数据 集 的 图 像 存 储 起 来 
循环 结束 








注意 以 上 的 并 不 是 R 代码 , 它 仅 仅 是 一 个 示意 流程 ,这 也 就 是 我 们 将 
它 写 在 框 中 并 且 没 有 使 用 “>” 符 号 和 R 代码 中 所 用 的 Courier New 字体 的 
原因 。 这 个 流程 涉及 到 的 是 一 个 循环 ,如 果 代码 语法 正确 的 话 ,R 重复 地 
执行 1000 次 ,从 i 二 1 开始 ,到 i 二 2, 一 直到 i 二 1000。 每 一 次 运行 时 ,循环 
内 部 的 命令 被 执行 一 饥 。 

这 个 流程 只 有 四 步 , 但 是 ,如 果 我 们 要 对 数据 进行 更 多 操作 的 话 , 就 需 
要 把 相应 的 命令 放 在 函数 中 。 假 如 我 们 想 做 的 不 仅仅 是 对 每 个 数据 集 做 
一 个 图 ,并 且 还 想 对 其 做 一 个 统计 表 和 多 元 分 析 ,我 们 就 需要 把 10 一 15 句 
命令 放 在 循环 中 ,但 是 ,代码 将 因此 变 得 比较 难 理解 。 此 时 ,使 用 函数 可 以 
起 到 很 好 的 简化 作用 : 
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z 从 1 变 到 1000 
提取 第 i 个 数据 集 
对 于 第 i 个 数据 集 执行 计算 统计 表 的 函数 
对 于 第 i 个 数据 集 执行 作 图 与 存储 的 函数 
对 于 第 i 个 数据 集 执行 计算 多 元 分 析 的 函数 
循环 结束 


这 里 的 每 个 函数 都 是 针对 相应 数据 集 的 一 些 命令 的 小 集合 ,它们 独立 
地 工作 ,相互 之 间 互 不 影响 ,只 操作 被 告知 的 命令 。 必 要 的 时 候 , 函 数 不 仅 
需要 处 理 数据 集 , 还 需要 对 数据 集 返 回 相应 的 信息 ,函数 一 旦 编写 完成 并 
且 验 证 了 正确 性 ,就 应 该 能 够 处 理 任何 数据 集 ,此 时 ,你 只 要 使 用 就 可 以 
了 。 

就 像 可 以 用 不 同 的 方式 来 建造 房子 一 样 , 程 序 的 设计 也 是 多 种 多 样 。 
在 上 述 的 策略 中 ,我 们 生成 了 一 个 i 从 1 到 1000 的 循环 ,在 每 一 个 循环 中 ， 
我 们 执行 提取 数据 和 对 其 应 用 函数 的 命令 。 你 还 可 以 这 样 来 完成 这 个 工 
作 ， 








对 于 每 个 数据 集 执 行 计算 统计 表 的 函数 
对 于 每 个 数据 集 执行 作 图 与 存储 的 函数 
对 于 每 个 数据 集 执行 计算 多 元 分 析 的 函数 





这 里 的 每 个 函数 中 都 包含 了 一 个 循环 ,在 每 个 循环 中 数据 被 提取 并 且 
被 应 用 于 相应 的 命令 。 代 码 的 编写 形式 完全 取决 于 个 人 的 编程 习惯 ,代码 
长 度 、 问 题 的 类 型 .计算 的 时 间 等 等 。 

在 学 习 函 数 之 前 ,我 们 先 来 了 解 一 下 循环 。 


6.2 循环 


如 果 你 对 一 些 编程 语言 ,比如 FORTRAN,C,C 十 十 ,MATLABO 等 比 
较 了 解 的 话 , 你 对 循环 一 定 不 陌生 。 虽 然 R 为 了 避免 出 现 循环 ,给 出 了 一 
些 专门 的 工具 ,但 是 ,这 些 工具 对 于 有 些 情况 也 是 无 能 为 力 的 。 为 了 阐明 
循环 可 以 节约 大 量 计算 时 间 的 情况 ,我们 使 用 一 个 谷 仓 猫头鹰 雏 乌 乞 食 行 
为 的 数据 。Roulin 和 Bersier(2007) 观 察 了 猫头鹰 稚 鸟 对 于 父亲 和 和 母亲 出 
现时 的 反应 ,他 们 选取 了 27 个 鸟 昌 样 本 ,每 个 鸟巢 内 放置 了 麦克 风 , 外 部 
使 用 摄像 头 来 考察 当 父母 带 回 食物 时 雏 鸟 的 乞 食 反 应 。 并 且 ,Roulin 和 


四 这些 都 是 一 些 类 似 于 R 的 不 同类 型 的 编程 语言 
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Bersier(2007) 以 及 Zuur 等 人 (2009) 的 著作 使 用 混合 效应 模型 对 其 进行 了 
完整 的 统计 分 析 。 

在 这 个 例子 中 ,我 们 使 用 “同胞 协商 ”来 定义 在 父母 到 达 前 30 秒 内 发 
出 叫 声 的 雏 鸟 的 数量 和 雏 鸟 总 数量 的 比值 。 数 据 收 集 于 连续 两 晚上 21 时 
30 分 到 5 时 30 分 之 间 的 时 间 段 ,变量 arrivalTime 表示 父母 带 回 食物 的 
时 间 。 

假设 你 被 任命 写 一 个 关于 这 些 数 据 的 报道 ,并 且 针 对 于 每 一 个 鸟巢 绘 
制 一 个 同胞 协商 对 到 达 时 间 的 jpeg 格式 的 散 ; 现在 有 27 个 鸟巢 ,所 
以 你 需要 绘制 并 存储 27 张 图 。 这 并 不 是 一 个 罕见 的 任务 ,我 们 完成 过 一 
些 类 似 的 工作 (比如 对 北海 (North Sea) > 之 75 的 鸟 的 种 类 绘制 等 高 线 图 )， 
此 时 要 做 的 也 许 就 是 使 用 不 同 的 绘图 符号 或 者 标题 把 以 前 的 工作 再 做 一 
遍 。 注 意 ,R 中 含有 可 以 把 27 张 散 点 图 绘制 到 一 张 图 中 ( 详 见 第 8 章 ) 的 工 
具 , 但 是 此 时 我 们 假设 客户 明确 指出 需要 27 张 不 同 的 jpeg 图 。 这 种 工作 
你 一 定 不 想 人 工 手动 地 完成 。 


6.2.1 像 建筑 师 那 样 设计 代码 
写 代码 之 前 ,你 需要 像 建 筑 师 那 样 设计 任务 的 大 致 步骤 : 





1. 载 人 数据 ,熟悉 变量 名 ,使 用 read. table,names 和 str 命令 。 

2. 提取 一 个 鸟巢 的 数据 ,对 于 这 个 子 集 绘制 出 同胞 协商 对 到 达 时 间 的 散 
点 图 。 

3. 添加 图 像 的 标题 以 及 z 轴 和 y 轴 的 坐标 轴 名 称 。 此 鸟巢 的 名 字 应 该 包 
含 在 主 标题 中 。 

4. 提取 第 二 个 鸟巢 的 数据 ,确定 需要 对 原始 图 像 做 哪些 修改 。 

5. 确定 如 何 将 图 像 存 储 为 jpeg 格式 。 

6， 写 一 个 可 以 提取 第 i 个 鸟巢 数据 的 循环 ,使 用 第 i 个 鸟巢 的 数据 绘制 图 
像 , 并 将 其 存储 为 一 个 具有 易 识别 的 名 字 的 jpeg 格式 图 片 。 


如 果 你 能 够 很 好 地 实现 上 述 算法 ,你 就 是 一 个 很 好 的 建筑 师 了 。 
6.2.2 第 1 步 : 载 入 数据 


下 列 的 代码 可 以 载 人 所 需 的 数据 ,并 且 给 出 了 变量 名 和 它们 的 状态 。 


这 里 的 R 代码 中 没有 新 的 内 容 , 都 是 在 第 2 章 和 第 3 章 里 学 过 的 命令 ， 
read. table,names 和 str。 
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> setwd("C:/RBook/") 

> Owls <- read.tableffile = "Owls.txt", header = TRUE) 
> names (Owls) 

[1] "Nest" "FoodTreatment" 

[3] "SexParent" "ArrivalTime" 

[5] "SiblingNegotiation" "BroodSize" 

[7] "NegPerChick" 

> str(Owls) 


‘data.frame’ : 599 obs. of 7 variables: 

$ Nest : Factor w/ 27 levels ... 

$ FoodTreatment : Factor w/ 2 levels ... 

$ SexParent : Factor w/ 2 levels ... 

$ ArrivalTime : num 22.2 22.4 22.5 22.6 ... 
$ SiblingNegotiation: int 402222184180.. 
$ BroodSize :int 5555555555... 
$ NegPerChick : num 0.8 0 0.4 0.4 0.4 0.4 


变量 Nest ,FoodTreatment 和 SexParent 在 ascii 文件 中 使 用 混合 符号 
码 进行 了 定义 ,因此 R 将 其 (准确 地 说 ) 视 为 字符 (参见 str 命令 对 于 这 些 
变量 的 输出 )。 


6.2.3 第 2 步 和 第 3 步 :绘制 散 点 图 并 添加 标签 


提取 某 一 个 鸟巢 的 数据 前 ,你 必须 弄 清楚 这 个 鸟巢 的 名 字 。 这 项 任务 
可 以 由 unique 命令 来 完成 : 


> unique (Owls$Nest) 


[1] AutavauxTV Bochet Champmartin 

[4] ChEsard Chevroux CorcellesFavres 
[7] Etrabloz Forel Franex 

[10] GDLV Gletterens Henniez 

[13] Jeuss LesPlanches Lucens 

[16] Lully Marnand Moutet 

[19] Murist Oleyes Payerne 

[22] Rueyes Seiry SEvaz 

[25] StAubin Trey Yvonnand 

27 Levels: AutavauxTV Bochet Champmartin ... Yvonnand 


以 上 给 出 了 27 个 鸟巢 的 名 字 , 提 取 某 一 个 乌 集 的 数据 可 以 使 用 第 3 章 
中 所 介绍 的 以 下 代码 : 


> Owls.ATV <- Owls [Owls$Nest=="AutavauxTV", J] 


Owls $ Nest=="AutavauxTV" 之 后 的 逗号 表示 可 以 选择 这 个 数据 框 的 
行 。 我 们 称 这 个 鸟巢 所 提取 的 数据 为 0wls. ATV, ATV 代表 这 个 鸟巢 的 名 
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字 。 为 了 绘制 散 点 图 ,我 们 需要 提取 Owls. ATV 中 到 达 时 间 和 协商 行为 的 数 
据 ,这 些 内 容 在 第 5 章 中 曾 讨论 过 ,具体 代码 为 : 


> Owls.ATV <- Owls [Owls$Nest == "AutavauxTV", J 
> plot(x = Owls.ATV$ArrivalTime, 
y = Owls.ATVSNegPerChick, 
xlab = "Arrival Time", main = "AutavauxTV" 
ylab = "Negotiation behaviour) 


你 将 从 数据 框 0wls. RTV 中 绘制 变量 ArrivalTime 对 NegPerChick 的 p.104 
散 点 图 ,因此 使 用 了 $ 符号 。 所 绘制 的 图 像 如 图 6. 1 所 示 。 迄 今 为 止 , 这 
些 步 又 中 还 没有 涉及 新 的 R 代码 。 
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图 6.1 某 一 个 鸟巢 中 到 达 时 间 (Arrival Time, 横 轴 ) 对 每 次 访问 协 
商行 为 (Negotiation behaviour, 纵 轴 ) 的 散 点 图 。 时间 取 自 22 
(22 时 ) 到 29(5 时 @) ,测量 来 自 连续 两 个 晚上 


6.2.4 第 4 步 :设计 通用 代码 


为 了 研究 代码 的 通用 性 ,我们 将 相同 的 步骤 应 用 于 另外 一 个 鸟巢 的 数 
据 。 针 对 第 二 个 鸟巢 ,代码 只 需要 做 很 小 的 修改 ,你 只 要 把 原来 输入 的 
RutavauxTV 改 为 Bochet 即 可 。 


@ 原文 中 为 4.00, 似 有 误 . 一 一 译 者 注 
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> Owls.Bot <- Owls [Owls$Nest == "Bochet", J 
> plot (x = Owls.Bot$ArrivalTime, 
y = Owls.Bot$NegPerChick, 
xlab = "Arrival Time", 
ylab = "Negotiation behaviour", main = "Bochet") 
这 里 就 不 绘 出 具体 的 图 像 了 。 我 们 在 此 把 这 个 特定 的 鸟巢 数据 存储 
到 数据 框 Oow1s. Bot 中 ,这 里 “Bot” 表 示 “Bochet” 的 意思 。 如 果 你 还 想 绘制 
其 它 鸟巢 的 这 个 图 像 , 你 只 需要 替换 掉 主 标题 名 称 、 数 据 框 名 称 以 及 实际 
的 数据 就 可 以 了 (循环 将 为 我 们 完成 这 个 工作 ) 。 
问题 在 于 ,你 最 多 需要 把 这 些 命令 再 执行 25 次 ,怎样 才能 化 简 这 个 繁 
琐 的 步骤 呢 ? 首先 ,将 这 些 数据 框 的 名 字 改 得 简单 一 点 ,使 用 owls. i 替换 
掉 Owls.ATV 或 者 Oow1s.Bot, 以 下 的 命令 可 以 完成 这 个 工作 。 
> Owls.i <- Owls [Owls$Nest == "Bochet", J 
> plot (x = Owls.i$ArrivalTime, 
y = Owls.i$NegPerChick, xlab = "Arrival Time", 
ylab = "Negotiation behaviour", main = "Bochet") 
我 们 使 用 了 一 个 可 以 被 用 在 任何 数据 集 上 的 简单 名 称 替换 了 所 提取 
数据 的 特殊 名 字 , 对 其 应 用 了 plot 函数 ,这 里 就 不 绘 出 具体 的 图 像 了 。 代 
码 中 有 两 处 仍然 出 现 了 “Bochet” 这 个 名 字 , 在 处 理 其 它 数据 集 时 ,需要 将 它 
们 进行 替换 。 为 了 化 简 这 种 繁琐 的 输入 方式 (同样 减少 出 错 的 机 率 ) ,可 以 
定义 一 个 包含 了 鸟巢 信息 的 变量 ,Nest.i, 在 提取 数据 和 添加 标题 时 使 用 
这 个 变量 就 可 以 了 : 
> Nest.i <- "Bochet"” 
> Owls.i <- Owls [Owls$Nest == Nest.i, J 
> plot(x = Owls.i$ArrivalTime, y = Owls.i$NegPerChick, 
xlab = "Arrival Time", main = Nest.i, 
ylab = "Negotiation behaviour") 
如 果 要 绘制 其 它 鸟巢 的 图 像 , 你 只 需要 更 改 一 下 代码 第 一 行 中 鸟巢 的 
名 字 就 可 以 了 ,其 它 地 方 都 会 相应 地 进行 更 改 。 


6.2.5 第 5 步 :保存 图 像 


现在 ,你 需要 做 的 就 是 将 图 像 存储 为 jpeg 文件 ( 详 见 jpeg 函数 的 帮助 
文件 ): 


1. 选择 一 个 文件 名 。 这 个 可 以 是 任何 名 字 , 例 如 ,"aRnyName. jpg"。 
2. 通过 键 人 jpeg(file = "RnyName. jpg") 打 开 一 个 jpeg 文件。 
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3. 使 用 plot 命令 来 绘制 图 像 。 由 于 你 键 人 了 jpeg 命令 ,R 将 把 所 有 
的 图 像 存储 为 jpeg 文件 ,并 且 图 像 的 输出 不 出 现在 屏幕 上 。 
4. 通过 键入 dev.off() 关 闭 jpeg 文件 。 


你 还 可 以 在 第 3 步 中 执行 其 它 的 绘图 命令 (如 plot, lines,points， 
text), 所 有 这 些 结果 都 将 存储 为 jpeg 文件 ,直至 R 执行 了 关闭 文件 的 
dev. off(device off) 命 令 。 所 有 在 执行 dev. off 命令 之 后 输入 的 绘图 命令 
都 不 能 将 结果 存 为 jpeg 文件 ,但 是 会 将 结果 显示 在 屏幕 上 。 这 一 点 在 图 
6.2 中 将 做 图 解说 明 。 
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} 所 有 输出 都 显示 在 屏幕 上 





pg") 


} 所 有 输出 都 存储 为 jpg 文件 








} 所 有 输出 都 显示 在 屏幕 上 | 











图 6.2 jpeg 和 dev.off 命令 的 小 结 。 所 有 在 jpeg 和 dev. off 命令 之 间 
的 绘图 结果 都 存储 为 jpg 文件 ,z 轴 和 y 轴 可 任意 选取 


在 这 一 问题 上 ,你 就 需要 考虑 将 文件 存放 在 哪里 ,最 好 是 和 R 的 工作 
目录 相互 独立 的 存储 。 第 3 章 中 我 们 讲 了 如 何 使 用 setwd 命令 来 设置 工作 
目录 ,我 们 此 时 选取 “C:/AllGraphs” 作 为 存储 目录 ,当然 你 也 可 以 根据 自 
己 的 选择 更 改 这 个 目录 。 

最 后 一 个 需要 解决 的 问题 就 是 如 何 生 成 一 个 文件 名 随 着 鸟巢 名 字 ( 变 p.106 
量 Nest.i) 改 变 而 自动 变化 的 文件 。 需 要 选择 一 个 包含 有 鸟巢 名 字 ( 比 如 
Bochet) 并 且 扩 展 名 为 jpg 的 文件 名 ,我 们 可 以 使 用 paste 命令 来 连接 
“Bochet” 和 “. jpg” 这 两 个 字符 串 , 并 且 之 间 不 加 空格 (也 就 是 “Bochet. jpg”) 
就 可 以 了 : 


P.107 


102 第 6 章 撼 环 与 函数 





> paste (Nest.i，".jpg"，sep = "") 
[1] "Bochet .jpg" 
paste 命令 的 输出 就 是 一 个 可 以 被 用 来 作为 文件 名 的 字符 串 , 可 以 使 
用 一 个 变量 来 存储 它 并 且 将 其 应 用 在 jpeg 命令 中 。 我 们 在 以 下 的 代码 中 
使 用 变量 YourFileName 作为 文件 名 ,R 就 将 介 于 jpeg 和 dev. off 命令 之 
间 的 绘图 结果 存储 到 这 个 文件 中 。 
> setwd{"C:/AllGraphs/") 
Nest.i <- "Bochet" 
Owls.i <- Owls [Owls$Nest == Nest.i, J 
YourFileName <- paste (Nest.i, ".jpg", sep="") 
jpeg (file = YourFileName) 
Plot (x = Owls.i$ArrivalTime, y = Owls.i$NegPerChick, 
xlab = "Arrival Time", main = Nest.i, 
ylab = "Negotiation behaviour") 
dev.off() 


一 旦 执行 了 这 些 代 码 ,就 可 以 在 你 的 工作 目录 中 使 用 任何 图 片 或 照片 
编辑 软件 来 打开 文件 Bochet. jpg 了 。jpeg 函数 的 帮助 文件 中 还 包含 了 一 
些 改善 jpeg 文件 尺寸 和 质量 的 更 多 信息 ,我 们 还 可 以 选用 其 它 一 些 函 数 ， 
如 bmp,png,tiff,postscript,pdf 和 windows 等 来 得 到 其 它 格 式 的 图 片 文 
件 , 具 体 细节 可 参见 相应 的 帮助 文件 。 


6.2.6 第 6 步 :构造 循环 


目前 为 止 ,你 仍然 需要 将 变量 名 Nest.i 更 改 27 次 ,每 一 次 都 需要 将 相 
应 的 代码 复制 并 粘贴 到 R 中 。 这 也 就 是 我 们 为 什么 要 引入 第 6 步 循环 了 。 
R 中 loop 命令 的 语法 如 下 所 示 : 


for (i in 1 : 27) { 
do something 
do something 
do something 
} 


Vvvvyv 


V 








“Do something” 并 不 是 有 效 的 R 指令 ,因此 我 们 将 这 些 指令 放 在 框 
中 ,注意 这 些 命令 必须 放 在 两 个 花 括 号 {和 } 之 间 。 我 们 用 27 是 因为 总 共 
有 27 个 鸟巢 。 每 一 次 循环 中 ,指标 i 都 取 1 到 27 之 间 的 一 个 值 。“do 
something” 表 示 有 序 地 对 当前 使 用 的 i 值 执行 相应 的 命令 。 因 此 ,你 需要 
针对 相应 的 鸟巢 ,将 打开 jpeg 文件 、 绘 制图 形 、 关 闭 jpeg 文件 等 的 代码 输 
入 到 循环 中 ,这 些 只 是 第 5 步 中 代码 的 一 个 简单 拓展 。 

在 下 列 代 码 中 的 第 一 行 ,我 们 对 鸟巢 的 名 字 使 用 了 unique 函数 ,确定 
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了 其 唯一 性 。 在 循环 中 的 第 一 行 , 我 们 令 Nest. i 与 第 ;个 鸟巢 的 名 字 是 等 
价 的 。 所 以 , 当 i 是 1 时 ,Nest.i 就 是 "AutavauxTV" ii 一 2 意味 着 Nest.i = 
"Bochet" ;如 果 i 是 27, 则 Nest.i 就 是 "Yvonnand" , 剩 下 的 代码 在 前 面 的 步 
又 中 都 已 讨论 过 了 。 如 果 运 行 这 个 代码 ,和 我 们 的 设想 一 样 , 在 工作 目录 
中 就 可 以 得 到 27 个 jpeg 文件 。 

> AllNests <- unique (Owls$Nest) 

Sy or (i ip T1327)-{ 

Nest.i <- AllNests[i] 

Owls.i <- Owls [Owls$Nest == Nest.i, J 

YourFileName <- paste(Nest.i, ".jpg", sep = "") 

jpeg (file = YourFileName) 

plot (x = Owls.i$ArrivalTime, y = Owls.i$NegPerChick, 


xlab = "Arrival Time", 
ylab = "Negotiation behaviour", main = Nest.i) 
dev.off() 


} 


[oi 完成 6.6 节 的 习题 1。 这 是 一 个 使 用 温度 数据 集 构造 循环 的 练习 。 


6.3 图 数 


子 数 的 原理 对 很 多 读者 来 说 可 能 还 比较 新 颖 。 如 果 你 不 熟悉 它 的 话 ， 
可 以 把 它 想象 成 一 个 盒子 ,在 它 的 一 侧 有 很 多 洞 (相当 于 输入 ), 另 外 一 侧 
有 一 个 洞 (相当 于 输出 )。 我 们 可 以 把 各 种 信息 通过 很 多 个 洞 输入 到 盒子 
里 ,盒子 就 像 一 个 管理 者 , 它 对 信息 进行 处 理 之 后 将 结果 由 另 一 侧 的 洞 输 
出 。 只 要 函数 能 正常 地 工作 ,我 们 对 于 它 是 怎样 得 到 这 个 结果 是 没有 多 大 
兴趣 的 。 我 们 在 第 5 章 中 已 经 使 用 了 loess 函数 , 它 的 输入 由 两 个 变量 组 
成 ,输出 是 一 个 包含 了 合适 数值 的 列表 。 其 它 一 些 已 出 现 的 函数 例子 有 
mean,sd,sapply 和 tapply 等 等 。 

函数 的 基本 概念 可 以 由 图 6. 3 来 进行 描述 。 它 的 输入 是 一 些 变量 ,A， 
B 和 C, 这 些 变 量 可 以 是 向 量 、 和 矩阵 ,数据 框 或 者 列表 ,函数 执行 一 些 设计 好 
的 计算 程序 ,将 结果 传递 给 用 户 。 

学 习 函 数 最 好 的 办 法 就 是 分 析 一 些 例 子 。 


6.3.1 零 和 空 


在 执行 统计 分 析 前 ,查找 并 处 理 所 有 的 缺失 值 是 非常 重要 的 ,因为 它 
们 经 常会 带 来 一 些 困难 。 某 些 方法 ,例如 线性 回归 ,将 会 移 除 所 有 包含 有 
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六 x 函数 执行 任务 结果 
B y 
c z 


图 6.3 函数 工作 原理 的 图 示 。 函 数 的 输入 为 多 个 变量 ,然后 执行 计算 ， 
再 将 结果 传递 给 用 户 。 根 据 变 量 输 入 的 顺序 ,A,B 和 C 在 函数 中 
依次 被 称 为 x,y 和 z, 这 被 称 为 位 置 互相 匹配 


缺失 值 的 情形 (观察 值 )。 含 有 很 多 零 的 变量 也 会 引起 一 些 麻烦 ,尤其 是 在 
多 元 分 析 中 。 例 如 ,我 们 会 因为 海豚 和 大 象 都 不 生活 在 月 亮 上 而 认为 这 两 
者 是 类 似 的 吗 ? 而 在 多 元 分 析 讨 论 中 它们 都 是 零 , 详 见 Legendre 和 
Legendre(1998) 的 著作 。 在 单 变 量 分 析 中 ,含有 很 多 零 的 响应 变量 同样 会 
导致 很 多 问题 ( 见 Zuur 等 ,2009 中 Zero Inflated Data 这 一 章 ) 。 

我 们 建议 对 每 一 个 变量 制作 一 个 表格 来 给 出 它 含 有 缺失 值 和 零 的 个 
数 , 当 然 也 建议 对 每 一 种 情形 使 用 表格 给 出 缺失 值 (或 零 ) 的 个 数 。 以 下 的 

P.109 阐述 使 用 了 R 代码 来 生成 这 样 的 表格 ,但 是 在 继续 学 习 前 ,我 们 建议 你 首 

先 完成 6. 6 节 的 习题 2, 因 为 它 可 以 帮助 你 更 好 地 认识 这 一 部 分 内 容 中 的 
R 代码 。 

这 个 例子 中 使 用 了 第 4 章 中 的 植物 数据 ,我 们 用 read. table 函数 来 载 
入 数据 ,并 用 names 命令 来 观察 变量 的 列表 : 
> setwd("C:/RBook/") 
> Veg <- read.table (file = "Vegetation2.txt", 


header = TRUE) 
> names (Veg) 


[1] "TransectName" "Samples" "Transect" 

[4] "Time" Ss "ROCK" 

[7] "LITTER" "ML" "BARESOIL" 
[10] "FallPrec" "SprPrec" "SumPrec" 
[13] "WinPrec" "FallTmax" "SprTmax" 
[16] "SumTmax" "WinTmax™ "FallTmin" 
[19] "SprTmin" "SumTmin"™ "WinTminn 
[22] "PCTSAND" "PCTSILT" "PCTOrgC™" 


前 四 个 变量 包含 了 时 间 截 面 的 名 称 、 截 面 的 个 数 和 测量 时 间 等 ,R 的 
列 标签 包含 了 每 个 观察 值 的 种 群 丰富 度 ( 种 群 的 数量 ), 剩 下 的 变量 都 是 协 
变量 。 

假设 你 想 要 这 样 一 个 函数 , 它 的 输入 是 包含 这 些 数据 的 数据 框 ,计算 
的 结果 是 每 个 变量 含有 缺失 值 的 个 数 。 则 这 个 函数 的 语法 应 该 是 
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NAPerVariable <- function(X1) { 
D1 <- is.na(X1) 
colSums (D1) 
了 
如 果 你 将 这 个 代码 输入 到 一 个 文本 编辑 器 中 并 将 其 粘贴 到 R 中 ,你 将 
看 不 到 任何 结果 。 这 个 代码 定义 了 一 个 名 为 NAPerVariable 的 函数 ,但 是 
它 并 没有 执行 这 个 函数 ,以 下 的 命令 可 以 用 来 执行 它 : 


> NAPerVariable (Veg [,5:24]) 


R ROCK LITTER ML BARESOIL FallPrec 
0 0 0 0 0 0 
SprPrec SumPrec WinPrec FallTmax SprTmax SumTmax 
0 0 0 0 0 0 
WinTmax FallTmin SprTmin SumTmin WinTmin PCTSAND 
0 0 0 0 0 0 


PCTSILT PCTOrgC 
0 


我 们 在 这 里 省 略 掉 了 数据 框 Veg 的 前 四 列 , 因 为 这 些 包括 了 截面 和 时 
间 的 信息 ,在 变量 的 列表 中 可 以 看 到 它们 没有 缺失 值 。 我 们 进一步 观察 函 
数 的 内 部 到 底 执行 了 哪些 操作 :函数 的 第 一 个 ,也 是 唯一 的 一 个 参数 为 x1， 
它 的 列表 示 变 量 , 行 表示 观察 值 。is. na(X1) 命 令 生 成 了 一 个 与 x1 维 数 相 
同 的 布尔 矩阵 ,如果 Xl 矩阵 中 某 元 素 的 值 为 缺失 值 , 则 此 矩阵 中 相应 的 位 
置 为 TRUE 值 ,否则 ,为 FALSE 值 。colSums 函数 是 R 中 已 有 的 一 个 函数 , 它 
的 作用 是 计算 每 一 列 ( 变 量 ) 中 元 素 的 和 。 正 常情 况 下 ,colSums 函数 的 使 
用 对 象 是 具有 数值 的 矩阵 ,但 是 当 它 的 使 用 对 象 是 布尔 矩阵 的 时 候 , 它 会 
将 TRUE 转化 为 1, 将 FALSE 转化 为 0。 因此 ,colSums(D1) 命 令 的 输出 结果 
就 是 每 个 变量 的 缺失 值 个 数 。 

如 果 你 用 rowSums 命令 替换 了 colSums 命令 ,这 个 函数 就 会 给 出 每 个 
观察 值 缺 失 值 的 个 数 。 


6.3.2 技术 信息 


函数 中 有 一 些小 的 问题 我 们 还 是 需要 强调 一 下 的 :首先 ,函数 内 部 使 
用 的 变量 名 称 。 注 意 到 我 们 使 用 了 X1 和 D1。 你 可 能 想 知 道 函数 内 部 的 代 
码 是 怎样 运行 的 ,例如 为 什么 X1 显示 的 是 蓝 色 。 这 里 使 用 了 位 置 匹 配 原 
则 ,NAPerVariable 的 第 一 个 ,在 这 里 也 是 唯一 的 一 个 参数 是 数据 框 veg 的 
一 个 子 集 。 在 函数 中 ,这 个 值 赋值 给 X1, 因 为 x1 是 这 个 函数 参数 中 的 第 一 
个 变量 ,因此 Xl 包含 了 数据 框 Veg 的 5 一 24 列 。 
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位 置 匹配 的 原理 在 图 6. 39 中 已 做 了 陈述 ,外 部 变量 A,B 和 C 在 函数 
中 被 相应 地 称 为 x,y 和 =,R 能 判断 出 z 就 是 A, 因 为 它们 都 是 函数 中 的 第 
一 个 参数 ,我 们 已 经 在 plot,1ines 和 loess 函数 的 参数 中 看 到 过 这 种 现象 
了 。 之 所 以 要 改变 变量 名 称 的 原因 是 因为 你 不 能 在 函数 内 部 使 用 一 个 已 
经 存在 于 函数 外 部 的 名 称 。 假 如 你 在 编程 中 出 现 了 一 些 错误 ,例如 ,你 把 
D1 <- is.na(X1) 错 误 地 写 为 D1 <- is.na(X),R 将 首先 在 函数 内 部 寻找 变 
量 X 的 值 ,如 果 在 函数 内 部 找 不 到 这 个 变量 的 话 , 它 将 在 函数 的 外 部 寻找 
这 个 值 。 如 果 此 时 函数 外 部 恰好 存在 这 个 变量 的 话 ,R 将 不 会 通知 你 而 直 
接 使 用 这 个 值 ,此 时 计算 出 的 就 不 是 变量 Veg 中 缺失 值 的 个 数 了 ,而 是 X 中 
缺失 值 的 个 数 ,不 管 X 是 什么 东西 。 一 般 的 惯例 是 对 函数 内 部 使 用 的 所 有 
变量 ,矩阵 ` 数 据 框 等 使 用 不 同 的 或 者 新 的 变量 名 。 

函数 中 出 现 的 第 二 个 重要 问题 就 是 返回 给 用 户 的 结果 信息 的 形式 。 
FORTRAN 和 C 十 十 的 用 户 可 能 认为 这 是 由 函数 参数 决定 的 ,但 事实 却 不 
是 这 样 , 函 数 中 最 后 一 行 代码 的 结果 将 是 返回 信息 。 函 数 NAPerVariable 
中 的 最 后 一 行 是 colSums(D1) ,所 以 这 是 提供 的 返回 信息 。 如 果 你 使 用 


> H <- NAPerVariable(Veg[ , 4 : 24]) 


H 将 包含 向 量 中 缺失 值 的 个 数 。 如 果 函 数 的 最 后 一 行 是 一 个 列表 , 则 
H 也 将 是 一 个 列表 。 在 本 章 后 面 出 现 的 一 个 例子 中 ,我 们 将 看 到 这 个 特点 
对 于 返回 多 个 变量 是 很 有 用 的 (也 可 参见 第 3 章 ) 。 

通常 情况 下 ,最 好 对 你 的 代码 进行 适当 的 说 明 。 你 可 以 对 此 函数 增加 
适当 的 注释 (使 用 # 符号 ), 说 明 数 据 都 是 以 变量 观察 值 格式 排列 的 ,计算 
的 结果 是 每 一 列 缺 失 值 的 个 数 。 

你 还 需要 保证 所 写 的 函数 可 以 运行 将 来 你 所 输入 的 任何 可 能 的 数据 
集 。 例 如 ,上 述 这 个 函数 的 输入 如 果 是 一 个 向 量 ( 变 量 ) 而 不 是 矩阵 的 话 ， 
它 将 会 给 出 错误 信息 ,colSums 命令 的 工作 对 象 仅 可 以 是 包含 有 多 个 列 的 
数据 (或 至 少 是 矩阵 )。 你 需要 对 这 一 点 进行 说 明 ,提供 一 个 易 理解 的 错误 
信息 ,或 者 将 它 拓展 为 可 以 正确 运行 输入 是 向 量 的 情况 。 


6.3.3 ” 零 和 空 的 第 二 个 示例 


红 王 蟹 (Paralithodes camstchaticus ) 在 十 九 世纪 六 七 十 年 代 被 从 它 的 
原 产 地 北 太 平 洋 引进 到 巴 伦 支 海 。 海 鱼 ,包括 鲁 鱼 身体 里 的 一 种 水 是 
Johanssonia arctica 会 将 它 的 卵 排 到 这 种 短 的 外 壳 中 ,这 种 水 监 是 一 种 锥 
体 虫 血液 寄生 虫 细 菌 。Hemmin-gsen 等 人 (2005) 在 每 年 一 次 沿 挪威 北部 


@ 原文 为 图 6.1, 似 有 误 . 一 一 译 者 注 
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芬 马克 (Finnmark) 海 岸 巡 航 中 研究 了 大 量 鲍鱼 的 锥 体 虫 感染 情况 。 我 们 
在 这 里 使 用 他 们 的 数据 ,其 中 包含 了 寄生 虫 是 否 出 现在 鱼 的 身体 里 和 每 条 
鱼 身 体内 寄生 虫 的 数量 。 记 录 的 信息 包括 了 身长 体重 ,年 龄 .级 别 . 性 别 
和 所 附属 鱼 的 位 置 等 。 我 们 使 用 所 熟悉 的 read. table 和 names 函数 来 载 
入 数据 并 给 出 变量 名 : 

> setwd("c:/RBook/") 

> Parasite <- read.table (file = "CodParasite.txt", 


header = TRUE) 
> names (Parasite) 


[1] "Sample" "Intensity" "Prevalence" "Year" 
[5] "Depth" "Weight" "Length" "Sex" 
[9] "Stage" "Age" "Area" 


由 于 我 们 已 经 在 6. 3. 1 节 中 将 函数 NAPerVariable 复制 并 粘贴 到 了 R 
中 ,所 以 这 里 就 不 需要 再 编写 这 个 函数 了 ,可 以 直接 键 信 以 下 命令 来 获得 
每 个 变量 缺失 值 的 数量 。 


> NAPerVariable (Parasite) 
Sample Intensity Prevalence Year Depth 

0 57 0 0 0 
Weight Length Sex Stage Age 

6 6 0 0 0 

Area 
0 
在 变量 Intensity 中 有 57 个 缺失 值 ,Weight 和 Length 中 各 有 6 个 缺 

失 值 。 


在 统计 分 析 中 ,我 们 可 以 将 寄生 虫 的 数量 看 作 是 年 份 .身长 或 者 体重 、 
性 别 、 所 附属 鱼 的 位 置 的 函数 ,通常 可 以 使 用 广义 线性 模型 来 实现 这 一 点 ， 
并 且 对 数据 进行 计数 。 但 是 ,如 果 目 标 变量 中 含有 很 多 零 值 的 话 就 会 导致 
各 种 问题 。 因 此 ,我 们 需要 确定 每 个 变量 中 究竟 有 多 少 个 零 ,尤其 是 变量 
Intensity 中 。 首 先 , 我 们 尝试 做 如 下 函数 : 

ZerosPerVariable <- function(X1i) { 
D1 = (XI == 0) 
colSums (D1) 

} 

这 和 前 面 的 NAPerVariable 函数 是 类 似 的 ,只 是 这 里 当 X1 中 的 元 素 值 
为 09 时 ,矩阵 D1 的 相应 位 置 取 TRUE 值 ,否则 取 FALSE 值 。 使 用 如 下 命令 


@ 原文 为 1, 似 有 误 。 一 一 译 者 注 
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来 执行 这 个 函数 : 
> ZerosPerVariable (Parasite) 
Sample Intensity Prevalence Year Depth 
0 NA 654 0 0 
Weight Length Sex Stage Age 
NA NA 82 82 84 
Area 


0 


共有 654 条 鱼 没有 寄生 虫 ,有 82 个 关于 性 别 的 观察 值 为 0, 性 别 和 级 
别 观 察 值 中 含有 一 些 值 为 0 的 观察 值 的 情况 是 和 译 码 方式 有 关 的 ,仅仅 将 
其 理解 为 字面 上 的 意思 就 可 以 了 。 变 量 Intensity,Weight 和 Length 中 含 
有 一 些 空 值 ,这 是 因为 如 果 变 量 的 任何 位 置 中 出 现 了 空 值 ,colSums 函数 的 
输出 就 为 空 值 。colSums 函数 的 帮助 文件 (可 通过 键入 ? colSums 得 到 ) 告 
诉 我 们 可 以 通过 加 上 na. rm = TRUE 命令 来 解决 这 个 问题 。 这 样 ,就 得 到 如 
下 函数 ， 
ZerosPerVariable <- function(XI) { 
D1 = (X1 == 0) 
colSums (D1, na.rm = TRUE) 
} 
由 于 有 了 na. rm = TRUE 选项 ,缺失 值 此 时 就 被 忽略 掉 了 。 执 行 新 的 函 
数 ,我 们 将 得 到 ， 


> ZerosPerVariable (Parasite) 


Sample Intensity Prevalence Year Depth 
0 654 654 0 0 
Weight Length Sex Stage Age 
0 0 82 82 84 

Area 


0 
此 时 输出 结果 显示 Weight 和 Length 的 观察 值 中 没有 等 于 0 的 值 ,这 
是 有 意义 的 。 变 量 Intensity 和 Prevalence 都 含有 654 个 零 值 ,这 也 是 有 
意义 的 ,0 在 变量 Prevalence 中 表示 没有 的 意思 。 


6.3.4 具有 多 个 参数 的 函数 
前 面 的 章节 中 ,我 们 编写 了 两 个 函数 ,一 个 用 来 确定 每 个 变量 中 缺失 
值 的 数量 , 另 一 个 用 来 确定 每 个 变量 中 零 值 的 数量 。 这 一 节 中 ,我 们 将 它 


们 结合 起 来 ,编写 一 个 既 能 计算 观察 值 中 零 值 数量 的 和 ,也 能 计算 观察 值 
中 空 值 数量 的 和 的 函数 。 下 面 给 出 这 个 新 函数 的 代码 : 
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VariableInfo <- function (Xl1, Choicel) { 

if (Choicel == "Zeros"){ D1 = (XI == 0) } 

if (Choicel == "NAs") { D1 <- is.na(X1)} 

colSums (D1, na.rm = TRUE) 
2} 

这 个 函数 有 两 个 参数 :X1 和 Choicel1。 和 前 面 一 样 ,X1 包含 了 数据 框 ， 
而 Choicel 是 一 个 包含 “ 零 或 者 “ 空 ” 的 变量 。 可 使 用 如 下 命令 来 执行 这 个 
函数 : 


> VariableInfo (Parasite, "Zeros") 


Sample Intensity Prevalence Year Depth 
0 654 654 0 0 
Weight Length Sex Stage Age 
0 0 82 82 84 
Area M 
0 
对 于 缺失 值 , 我 们 可 以 使 用 P.114 
> VariableInfo (Parasite, "NAs") 
Sample Intensity Prevalence Year Depth 
0 57 0 0 0 
Weight Length Sex Stage Age 
6 6 0 0 0 
Area 
0 


可 以 看 到 ,这 个 函数 的 输出 结果 和 前 面 内 容 是 一 样 的 ,这 就 达到 了 我 
们 预定 的 要 求 。 我 们 还 可 以 分 配 一 个 变量 来 存储 这 个 函数 的 输出 结果 : 


> Results <- VariableInfo (Parasite, "Zeros") 


如 果 你 在 操作 界面 中 输入 Results, 你 将 得 到 与 上 面 一 样 的 结果 。 图 
6.4 给 出 了 上 面 函 数 工作 的 示意 图 ,此 函数 的 输入 是 数据 框 Parasite 和 字 
符 串 "Zeros" ,它们 在 函数 中 分 别 被 称 为 ZL 和 Choicel。 然 后 函数 进行 相 
应 的 计算 ,并 将 最 终结 果 存 储 在 Di 中 。 在 函数 外 部 ,我 们 可 以 使 用 
Results 来 查看 结果 。 当 确定 了 此 函数 代码 的 正确 性 并 且 无 bug 时 ,你 就 
可 以 忘记 变量 X1,Choicel 和 D1 了 ,并 且 不 用 管 函数 内 部 是 怎么 运行 的 ,你 
所 需 知道 的 就 是 输入 和 结果 。 

现在 唯一 的 问题 是 我 们 目前 的 函数 对 于 用 户 的 错误 信息 不 是 很 稳健 。 
假设 你 在 输入 上 出 现 了 错误 ,将 “Zeros” 拼 成 了 “zeroos”: 
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Parasite 





xl ”基于 Xl 和 Choicel, 
来 计算 D1 
Choicel 红 






Results 


图 6.4 计算 数据 集中 零 值 或 者 缺失 值 的 函数 图 示 。 根 据 
位 置 匹配 原则 ,数据 框 Parasite 和 字符 串 "Zeros” 
在 函数 内 部 分 别 被 称 为 X1 和 Choicel 


> VariableInfo (Parasite, "zeroos") 
Error in inherits(x, "data.frame"): object "D1" not 
found 


变量 Choicel 就 会 等 于 一 个 不 存在 的 字符 “zeroos”, 所 以 此 时 就 不 会 
P.115 执行 任何 命令 。 因 此 ,D1 将 没有 值 ,取而代之 的 是 最 后 一 行 的 这 个 错误 信 

息 。 另 外 一 个 可 能 出 现 的 错误 就 是 忘记 给 第 二 个 参数 赋值 : 
> VariableInfo (Parasite) 
Error in VariableInfo(Parasite) : argument "Choicel" is 
missing, with no default 

变量 Choicel 没有 值 , 函 数 代码 的 第 一 行 就 无 法 执行 。 设 计 函 数 中 很 
大 的 一 个 挑战 就 是 预知 可 能 出 现 的 错误 ,这 里 ,我 们 看 到 了 两 个 很 僵 的 (但 
是 很 常见 ) 错 误 ,事实 上 ,针对 于 此 类 错误 ,函数 是 可 以 被 设计 的 更 稳健 的 。 
6.3.5 稳健 的 函数 


设计 一 个 稳健 的 函数 ,你 可 能 必须 发 动 数 百 号 人 来 共同 寻找 并 报告 错 
误 , 或 者 是 将 这 个 函数 应 用 到 数 百 个 数据 集 上 ,即便 如 此 ,设计 出 的 函数 可 
能 还 是 有 问题 。 但 是 ,我 们 可 以 做 一 些 简单 的 事情 来 使 函数 尽 可 能 的 稳 
健 。 


6.3.5.1 函数 参数 中 变量 的 默认 值 
在 上 述 函 数 中 ,我 们 可 以 给 变量 Choicel 赋 一 个 默认 值 。 这 样 的 话 , 即 
使 我 们 在 使 用 中 忘记 给 Choicel 赋值 ,函数 也 会 使 用 默认 值 进行 计算 。 如 


函数 可 被 设计 为 : 一 

VariableInfo <- function (Xl1, Choicel = "Zeros { 
if (Choicel == "Zeros"){ D1 = (XI == 0) } 
if (Choicel == "NAs") { D1 <- is.na(X1)} 
colSums (D1, na.rm = TRUE) 

2} 


此 时 的 默认 值 是 “Zeros”。 我 们 可 以 不 给 变量 Choicel 赋值 来 执行 这 
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个 函数 ,同样 会 得 到 有 效 的 结果 。 为 了 验证 这 一 点 ,键入 


> VariableInfo (Parasite) 


Sample Intensity Prevalence Year Depth 
0 654 654 0 0 
Weight Length Sex Stage - Age 
0 0 82 82 84 

Area 

0 


如 果 要 计算 缺失 值 的 数量 ,可 使 用 和 以 前 一 样 的 命令 : 
> VariableInfo (Parasite, "NAs™") 

此 情形 下 ,函数 中 的 第 二 个 if 命令 将 被 执行 ,这 里 就 不 再 列 出 这 个 命 
令 的 结果 。 最 后 ,不 要 忘记 给 默认 值 编写 帮助 文件 。 

6.3.5.2 拼写 错误 

我 们 还 希望 上 述 函 数 能 够 根据 Choicel 的 值 来 执行 适当 的 代码 ,如 果 
Choicel 的 值 不 等 于 “Zeros” 或 “NAs” 时 能 给 出 相应 的 警告 信息 。 以 下 的 
代码 就 可 以 完成 这 个 任务 : 


VariableInfo <- function(X1, Choicel = "Zeros") { 
if (Choicel == "Zeros"){ D1 = (XI == 0) } 
if (Choicel == "NAs") { D1 <- is.na(X1)} 
if (Choicel != "Zeros" & Choicel != "NAs") 了 


print ("You made a typo")} else { 
colSums (D1, na.rm = TRUE)} 


第 三 个 if 指令 的 作用 是 , 当 Choicel 的 值 不 等 于 “Zeros” 或 “NAs” 时 ， 
输出 警告 信息 ,否则 ,执行 colSums 命令 。 为 了 查看 它 的 运行 情况 ,键入 


> VariableInfo (Parasite, "abracadabra") 
[1] "You made a typo" 
注意 到 函数 的 内 部 其 实 进 行 了 如 下 的 工作 步骤 : 


如 果 A 成 立 ,如 何如 何 
如 果 BB 成立, 如何 如何 
如 果 C 成立, 如何 如何 ,否则 ,如 何如 何 


专业 的 程序 员 会 反对 这 种 程序 结构 ,原因 在 于 R 需要 检查 每 一 个 i 
指令 ,哪怕 参数 是 “Zeros” 且 仅 有 第 一 个 证 指令 与 其 相关 。 在 此 函数 中 ,这 
没有 多 大 的 影响 ,因为 只 有 三 个 if 指令 ,不 会 花费 太 多 的 时 间 , 但 是 如 果 
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有 1000 个 if 指令 , 且 仅 有 一 个 if 指令 需要 执行 ,那么 检查 所 有 的 指令 列 
表 将 会 浪费 很 多 时 间 。if 命令 的 帮助 文件 ,通过 ? if 获得 ,提供 了 一 些 处 
理 这 种 情况 的 工具 。 在 “ 另 见 ” 部 分 中 ,提出 了 ifelse 命令 ,在 上 述 函 数 中 
我 们 可 以 用 它 来 代替 前 两 个 if 命令 : 
> ifelse(Choicel == "Zeros", D1 <- (XI == 0), 
D1 <- is.na(X1)) 
如 果 Choicel 的 值 等 于 “Zeros”,D1 <- (Xl == 0) 命 令 将 被 执行 ,其 它 
所 有 情况 下 ,执行 D1 <- is.na(X1)。 我 们 不 仅 要 准确 地 记 住 这 些 命令 ,还 
要 明白 它们 在 R 中 的 适用 范围 。 在 6. 4 节 中 ,我 们 将 说 明 如 何 使 用 证 
else 句 型 来 避免 检查 大 量 的 if 指令 。 


一 应 用 猫头鹰 数据 ,通过 对 ifelse 命令 定义 新 的 分 类 变量 完成 
6. 6 节 的 习题 2。 














6.4 困 数 和 让 指令 的 其 它 问题 


接 下 来 ,我 们 通过 一 个 多 元 数据 集 来 讨论 从 函数 外 部 传递 多 个 参数 值 和 
ifelse 命令 。 荷 兰 政府 研究 机 构 RIKZ 于 2002 年 夏天 开展 了 一 个 海底 生物 
取样 项 目 , 项 目 从 沿 荷 兰 海岸 线 9 个 海滩 的 45 个 站 点 收集 了 大 约 75 种 海底 
生物 的 数据 。 该 数据 的 深层 次 信息 和 统计 分 析 的 结果 ,比如 线性 回归 ,广义 
加 性 模型 (generalised additive modelling) ,线性 混合 效应 模型 (linear mixed 
effects modelling) 都 可 以 在 Zuur 等 人 (2007,2009) 的 著作 中 找到 。 

该 数据 矩阵 包含 了 45 行 (站 点 ) 和 88 列 (75 个 物种 和 13 个 解释 变 
量 )。 你 可 以 使 用 多 元 分 析 的 方法 来 研究 哪些 物种 是 共生 的 ,哪些 站 点 的 
物种 结构 类 似 , 哪 些 环境 变量 使 得 物种 更 加 丰富 等 等 。 然 而 ,在 做 这 些 事 
情 之 前 ,你 可 能 希望 能 通过 计算 解释 变量 的 多 样 性 指数 和 关联 指数 这 些 简 
单 的 工作 来 作为 研究 的 开始 。 

对 于 每 一 个 站 点 ,多 样 性 指数 意味 着 可 以 使 用 一 个 单独 的 值 来 辨别 75 
个 物种 。 完 成 这 一 点 有 很 多 的 方法 ,Magurran(2004) 的 著作 介绍 了 多 种 多 
样 性 指数 。 我 们 在 这 里 不 讨论 哪 种 多 样 性 指数 更 好 ,我 们 需要 做 的 仅仅 是 
发 展 一 种 以 包含 有 缺失 值 的 物种 观察 值 矩阵 和 一 个 能 告诉 函数 需要 计算 
哪 种 多 样 性 指数 的 变量 作为 输入 的 R 函数 。 为 了 简单 起 见 ,我 们 仅 设计 三 
种 指数 的 代码 ,有 兴趣 的 读者 可 以 拓展 这 个 R 函数 ,并 且 在 里 面 添加 任何 
你 想 计 算 的 多 样 性 指数 代码 。 我 们 所 使 用 的 三 种 多 样 性 指数 是 : 
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1. 每 个 站 点 的 生物 总 量 。 
2. 物种 丰富 度 ,定义 为 每 个 站 点 不 同 物种 的 数量 。 
3. 香农 指数 。 它 描述 了 物种 实际 上 的 存在 量 , 定 义 为 
H; =— 2) "ps X logips 

志 由 如 下 式 子 计算 P.118 
Yy 
Ys 

表示 在 站 点 i 的 生物 j 的 比例 ,m( 在 第 一 个 式 子 中 ) 表 示 生 物 总 数 ， 
nn 也 表示 生物 总 数 。 
6.4.1 再 做 一 次 建筑 师 


像 这 一 章 前 面 的 例子 那样 ,我 们 从 设计 任务 的 大 致 步骤 开始 。 


ps 一 


1. 载 人 数据 ,确定 变量 的 类 型 ,变量 的 名 称 ,数据 的 维 数 等 等 。 

. 计算 站 点 1 的 生物 总 量 , 然 后 是 站 点 2 的 ,使 用 尽 可 能 通用 的 代码 
来 使 这 一 步 实现 自动 化 处 理 , 当 然 也 要 使 代码 简洁 有 效 。 

.计算 站 点 1 不 同 物种 的 数量 ,然后 是 站 点 2 的 ,使 用 尽 可 能 通用 的 
代码 来 使 这 一 步 实现 自动 化 处 理 。 

4. 应 用 同样 的 方法 来 处 理 香农 指数 。 

5. 合并 代码 并 用 if 指令 来 实现 选择 计算 不 同 的 指数 ,注意 使 用 简洁 
的 代码 。 

. 将 所 有 代码 置 人 一 个 函数 中 ,允许 用 户 指 定数 据 和 多 样 性 指数 。 函 
数 需要 实现 返回 实际 的 指数 值 并 且 显 示 选 择 了 哪 种 多 样 性 指数 (使 
用 字符 串 ) 。 


9 


oo 


Ea 


接 下 来 ,我 们 将 这 些 步 又 转化 为 R 可 以 完全 处 理 的 代码 。 
6.4.2 第 1 步 : 载 入 并 评估 数据 


载 人 RIKZ 数据 ,区 分 物种 数据 和 环境 数据 ,使 用 如 下 的 R 代码 来 确 
定 这 些 数据 的 规模 : 


> Benthic <- read.table("C:/RBook/RIK2Z.txt", 
header = TRUE) 

> Species <- Benthic[ , 2:76] 

> n <- dim(Species) 

>n 

[1] 45 75 
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数据 框 Benthic 的 第 一 列 是 标签 ,第 2 一 76 列 是 物种 的 数据 ,第 77 一 
899 列 为 解释 变量 。 物 种 的 数据 被 提取 并 存放 在 数据 框 Species 中 , 它 的 
维 数 是 45 行 和 75 列 , 这 两 个 数据 是 由 dim 命令 得 到 的 ,并 将 其 存储 在 n 
中 。 为 了 节省 空间 ,我 们 在 这 里 不 列 出 names 和 str 命令 的 结果 。 这 里 所 
有 的 变量 都 是 数值 型 的 。 


6.4.3 第 2 步 :每 个 站 点 的 生物 总 量 
使 用 如 下 的 命令 来 计算 站 点 1 的 全 部 生物 数量 之 和 。 


> sum(Species[1, J], na.rm = TRUE) 


[1] 143 
可 以 看 到 ,这 个 数量 为 143, 同 样 可 以 计算 站 点 2 的 生物 数量 : 
> sum(Species[2, J], na.rm = TRUE) 


L11 32 


为 了 避免 将 这 个 命令 写 45 遍 , 我 们 构造 一 个 循环 来 计算 每 个 站 点 的 生 
物 数量 。 显 然 ,我 们 需要 把 这 些 值 存储 起 来 ,以 下 的 命令 可 以 实现 这 一 点 : 


> TA <- vector(length = n[17]) 
> for (iin 1:n[1]){ 
TA[i] <- sum(Species[i, J], na.rm = TRUE) 


这 里 TA 是 一 个 长 度 为 45 的 向 量 ,包含 了 每 个 站 点 全 部 生物 数量 之 和 : 


> TA 


[1] 143 52 70 199 67 944 241 192 211 48 35 
[12] 1 47 38 10 1 47 73 8 48 6 42 
[23] 29 0 43 3334 67 46 5 7 1 1 
[34] 102 352 6 9927 85 0 19 3423 0 
[45] 11 
共有 三 个 站 点 是 完全 没有 生物 的 ,而 有 一 个 站 点 的 生物 总 量 达 到 了 
944。 注 意 在 构造 循环 之 前 必须 首先 将 TA 定义 为 一 个 长 度 为 45 的 向 量 ( 见 
上 述 代 码 ) ,否则 TA[i] 将 会 给 出 错误 的 信息 。 你 还 需要 确定 循环 中 的 变量 
i 必须 在 1 和 45 之 间 , 比 如 TAL46] 就 是 没有 定义 的 。 我 们 在 给 向 量 定义 的 
时 候 没 有 使 用 length = 45, 而 使 用 了 length = n[1], 因 为 我 们 的 任务 是 纺 
写 尽 可 能 通用 的 代码 。 这 里 我 们 刻意 地 构造 了 一 个 循环 ,实际 上 ,还 有 更 


@ 原文 为 77 一 86, 似 有 误 。 一 一 译 者 注 
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简洁 的 命令 来 得 到 相同 的 结果 ,如 下 所 示 : 


> TA <- rowSums (Species, na.rm = TRUE) 
> TA 


[1] 143 52 70 199 67 944 241 192 211 48 35 
[12] 1 4738 10 1 47 73 8 48 6 42 
[23] 29 043 3334 67 46 5 711 
[34] 102 352 6 9927 85 0 19 3423 0 
[45] 11 
rowSums 命令 计算 了 每 一 行 的 和 ,注意 它 只 使 用 了 一 行 代码 ,当然 也 就 
使 用 了 更 少 的 计算 时 间 ( 虽 然 对 于 这 样 的 小 数据 集 差别 是 很 小 的 ), 所 以 它 
比 循环 更 可 取 。 


6.4.4 第 3 步 :每 个 站 点 的 丰富 度 
站 点 1 的 物种 数量 可 以 由 下 列 命令 给 出 : 


> sum(Species[1, ] > 0, na.rm = TRUE) 
[过 


可 以 看 到 ,在 站 点 1 中 有 11 个 不 同 的 物种 ,Species[1,]> 0 生成 了 一 
个 长 度 为 75 的 布尔 向 量 , 它 的 元 素 是 TRUE 和 FRLSE。sunm 函数 将 TRUE 转 
化 为 1,FALSE 转化 为 0, 然 后 对 其 进行 相 加 。 

对 于 站 点 2, 使 用 


> sum(Species[2, ] > 0, na.rm = TRUE) 
[1] 10 


为 了 计算 每 个 站 点 的 丰富 度 , 我 们 像 计算 生物 总 量 那样 构造 一 个 循 
环 。 首 先 定义 一 个 长 度 是 45 的 向 量 Richness, 然 后 从 1 到 45 分 别 执行 这 
个 循环 ,最 终 确 定 每 一 个 站 点 的 丰富 度 ,并 将 其 存储 起 来 。 
> Richness <- vector(length = nI7J) 
> for {iin 1:n[17)1{ 


Richness[i] <- sum(Species[i, J] > 0, na.rm = TRUE) 
了 


“> Richness 


[3013 11°10 8. 9 人 9 .4176 14-:33 
I 二 
[31) 2 1 23 3 573 5 007141302 
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另外 一 个 简洁 的 方法 就 是 使 用 rowSums 命令 ,可 以 得 到 相同 的 结果 : 


> Richness <- rowSums (Species > 0, na.rm = TRUE) 
> Richness 


CS 
(LE 
L343 这 汗 - 寺 人 


6.4.5 第 4 步 :每 个 站 点 的 香农 指数 


计算 香农 指数 ,我 们 只 需要 三 行 简洁 的 R 代码 ,它们 中 包含 了 这 个 指 
数 的 计算 公式 ，: 
> RS <- rowSums (Species, na.rm = TRUE) 
> prop <- Species / RS 


> H <- ~rowSums (prop * log10 (prop), na.rm = TRUE) 
>H 


[1] 0.76190639 0.72097224 0.84673524 
[4] 0.53083926 0.74413939 0.12513164 
[7] 0.40192006 0.29160667 1.01888185 
[10] 0.99664096 0.59084434 0.00000000 


二 为 了 节省 空间 截至 此 处 二 


我 们 完全 可 以 使 用 循环 来 代替 上 述 代 码 。“diversity” 函 数 还 可 以 使 
这 个 计算 变 得 更 快 , 它 存在 于 R 的 vegan 程序 包 中 ,这 个 程序 包 不 在 基础 
安装 中 ,要 安装 它 可 见 第 1 章 。 一 旦 安装 了 这 个 程序 包 , 我 们 就 可 以 使 用 
如 下 的 代码 : 


> library (vegan) 
> H <- diversity (Species) 


>H 
1 2 3 4 5 
1.7543543 1.6600999 1.9496799 1.2223026 1.7134443 
6 7 8 3 10 
0.2881262 0.9254551 0.6714492 2.3460622 2.2948506 
11 12 13 14 15 
1.3604694 0.0000000 0.4511112 0.5939732 0.9433484 
16 1 18 19 20 


0.0000000 0.7730166 0.1975696 0.0000000 0.8627246 


二 为 了 节省 空间 截至 此 处 二 
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注意 到 这 两 者 的 结果 值 是 不 一 样 的 ,diversity 的 帮助 文件 显示 其 在 
计算 中 使 用 的 是 自然 对 数 ,而 我 们 使 用 的 是 底 为 10 的 对 数 。 它 还 给 出 了 
如 何在 需要 的 时 候 对 这 种 设置 进行 修改 的 说 明 。 

由 于 vegan 程序 包 必须 安装 在 具有 相应 代码 的 用 户 电 脑 上 ,这 也 就 限 
制 了 它 的 使 用 。 


6.4.6 第 5 步 :结合 代码 
输入 计算 所 有 三 种 指数 的 代码 ,用 if 指令 实现 对 所 需 计算 指数 的 选 


择 。 
> Choice <- "Richness" 
> if (Choice == "Richness") { 
Index <- rowSums (Species >0, na.rm = TRUE)} 
> if (Choice == "Total Abundance") { 


Index <- rowSums (Species, na.rm = TRUE) } 
> if (Choice=="Shannon") { 
RS <- rowSums (Species, na.rm = TRUE) 
prop <- Species / RS 
Index <- -rowSums (prop*10g10 (prop), na.rm = TRUE)} 
仅 需 将 Choice 的 值 改 为 "Total Abundance" 或 "Shannon" ,就 可 以 计算 


其 它 的 指数 了 。 
6.4.7 第 6 步 :将 代码 置 入 函数 中 


此 时 ,我 们 所 要 做 的 就 是 将 所 有 的 代码 置 人 一 个 函数 中 ,同时 保证 需 
要 的 指数 被 计算 并 将 结果 返回 给 用 户 。 以 下 的 代码 可 以 实现 这 一 点 : 


Index.function <- function(Spec, Choicel){ 


if (Choicel == "Richness") { 

Index <- rowSums(Spec > 0, na.rm = TRUE)} 
if (Choicel == "Total Abundance") { 

Index <- rowSums (Spec, na.rm = TRUE) } 
if (Choicel == "Shannon") TY 


RS <- rowSums (Spec, na.rm = TRUE) 
prop <- Spec / RS 
Index <- -rowSums (prop * 10g10 (prop), 
na.rm = TRUE)} 
list(Index = Index, MyChoice = Choicel) 
了 


if 指令 保证 了 仅 有 一 个 指数 被 计算 。 对 于 小 数据 集 , 你 可 以 计算 所 有 
的 指数 ,但 是 对 于 较 大 的 数据 集 ,并 不 建议 这 么 做 。 在 执行 代码 之 前 ,确保 
函数 中 没有 函数 外 部 已 存在 的 变量 是 很 明智 的 。 如 果 万 一 有 的 话 ,可 以 使 
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用 rm 命令 来 移 除 它们 ( 见 第 1 章 ) ,或 者 退出 ,重新 启动 R, 对 所 有 的 输入 变 
量 重新 命名 ,使 得 它们 和 所 有 的 变量 名 没有 重复 。 需要 执行 这 个 函数 时 ， 
将 其 代码 复制 粘贴 到 控制 台中 ,键入 这 样 的 命令 : 


> Index.function(Species, "Shannon") 


$Index 

[1] 0.76190639 0.72097224 0.84673524 0.53083926 
[5] 0.74413939 0.12513164 0.40192006 0.29160667 

[9] 1.01888185 0.99664096 0.59084434 0.00000000 
[13] 0.19591509 0.25795928 0.40969100 0.00000000 
[17] 0.33571686 0.08580337 0.00000000 0.37467654 
[21] 0.37677792 1.23972435 0.62665477 0.00000000 
[25] 0.35252466 0.39057516 0.38359186 0.00000000 
[29] 0.58227815 0.57855801 0.17811125 0.00000000 
[33] 0.00000000 0.12082909 0.08488495 0.43924729 
[37] 0.56065567 0.73993117 0.20525195 0.00000000 
[41] 0.65737571 0.75199627 0.45767851 0.00000000 
[45] 0.25447599 
$MyChoice 


[1] "Shannon" 


注意 到 函数 是 根据 最 后 一 行 的 命令 来 返回 信息 的 ,此 处 是 一 个 list 命 
令 。 回 忆 第 2 章 的 内 容 , 可 以 知道 list 命令 可 以 结合 不 同 维 数 的 数据 ,此 
处 是 一 个 有 45 个 值 的 变量 和 一 个 所 选 指数 的 名 称 。 

这 个 函数 是 完美 的 吗 ? 答案 是 否定 的 ,为 了 验证 这 一 点 , 键 和 人 : 


> Index.function(Species, "total abundance") 
R 将 会 给 出 错误 信息 : 
Error in Index.function(Species，"total abundance") : 
object "Index"” not found 
注意 到 我 们 在 输入 时 出 现 了 一 个 错误 ,没有 大 写 “total abundance” 的 
开头 字母 。 前 面 的 内 容 中 ,我 们 讨论 了 如 何 避 免 这 种 错误 的 发 生 。 改 进 这 
个 函数 ,使 得 当 它 检查 完 所 有 if 指令 后 发 现 没有 能 够 执行 的 命令 时 ,给 出 
警告 信息 。 我 们 可 以 使 用 if else 命令 来 实现 这 一 点 。 
Index.function <- function(Spec,Choicel){ 


IF (Choicel == "Richness") { 
Index <- rowSums(Spec > 0, na.rm = TRUE) } else 
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if (Choicel == "Total Abundance") 了 
Index <- rowSums (Spec, na.rm = TRUE) } else 
if (Choicel == "Shannon") 了 


RS <- rowSums (Spec, na.rm = TRUE) 
prop <- Spec / RS 
Index <- -rowSums (prop*1log (prop) ,na.rm=TRUE) } else { 
print ("Check your choice") 
Index <- NA } 
list(Index = Index, MyChoice = Choicel)} 
R 首先 检查 第 一 个 if 命令 , 当 它 的 值 为 FALSE 时 ,检查 第 二 个 if 指 
令 , 等 等 。 如 果 变 量 Choicel 和 “Richness”,“Total Abundance” 或 者 
“Shannon” 都 不 相等 时 ,函数 执行 如 下 的 命令 ， 
print ("Check your choice") 
Index <- NA 
你 可 以 将 print 命令 中 的 文本 替换 为 任何 合适 的 陈述 。 同 样 ,也 可 以 
使 用 stop 命令 来 中 断 R 的 运行 , 当 函 数 属于 一 个 较 大 计算 程序 的 一 部 分 
时 这 样 做 是 很 有 用 的 。 例 如 , 引导 程序 ,具体 可 参考 stop, break， 
geterrmessage 或 warning 的 帮助 文件 。 这 种 特别 的 操作 方法 可 以 帮助 你 
处 理 代码 中 出 现 的 突 发 错误 。 


6.5 我 们 学 习 了 哪些 R 函数 ? 


表 6.1 列 出 了 本 章 所 介绍 的 R 函数 。 
表 6.1 本 章 所 介绍 的 R 函数 








函 数 功 能 示 例 
jpeg 打开 一 个 jpg 文件 jpeg(file = “AnyName. jpg) 
dev. off 关闭 jpg 文件 dev. off() 
function 构造 一 个 函数 z <— function(x,y){ } 
paste 将 变量 连接 为 字符 串 。 paste(a,b,sep =“) 
if 条 件 指令 if (a) { x<—1)} 
ifelse 条 件 指令 ifelse (a,x <—1,x <—2) 


if elseif 条 件 指令 if (a) {x <—1}elseif (bl {x<—2} 
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6.6 习题 


习题 1， 使 用 循环 对 每 个 地 点 的 温度 数据 绘图 。 


在 6.2 节 , 我 们 绘制 了 每 个 鸟 烛 的 猫 头 应 数据 中 同胞 协商 行为 对 到 达 
时 间 的 散 点 图 ,并 将 它们 存 为 jpg 文件 。 对 温度 数据 ,具体 见习 题 4. 1 , 进 
行 同样 的 处 理 。temperature. zls 文件 包含 了 在 荷兰 海岸 线 上 31 个 地 点 
(电子 数据 表 中 表示 为 站 点 ) 采 集 的 温度 数据 ,对 于 每 个 站 点 绘制 温度 数据 
对 时 间 的 图 ,并 将 其 存 为 jpg 文件 。 


习题 2， 对 猫头鹰 数据 使 用 ifelse 命令 。 


猫 头 应 数据 是 连续 两 个 晚上 采集 的 ,假如 你 从 一 个 鸟巢 中 选取 数据 ， 
观察 值 将 涵盖 两 晚上 的 数据 ,这 两 晚上 的 喂食 情况 是 不 一 样 的 (食物 充足 
或 者 食物 欠缺 ) 。 选 取 一 个 鸟巢 及 其 食物 情况 的 所 有 观察 值 ,使 用 ifelse 
和 paste 函数 生成 一 个 定义 了 这 个 鸟巢 一 个 单独 夜晚 的 观察 值 的 新 分 类 变 
量 , 来 提取 这 些 观 察 值 。 试 着 再 次 运行 习题 1 的 代码 ,绘制 一 个 此 鸟巢 一 
个 夜晚 的 观察 值 中 同胞 协商 对 到 达 时 间 的 图 像 。 


习题 3， 对 海底 生物 数据 集 使 用 function 和 if 命令 。 


这 个 习题 中 我 们 给 出 6. 4 节 所 提 到 的 函数 :多 样 性 指数 的 计算 的 具体 
执行 步 又。 阅读 6.4 节 关 于 多 样 性 指数 的 说 明 , 载 人 海底 生物 的 数据 ,并 
提取 2 一 76 列 , 它 们 就 是 生物 的 数据 。 

计算 站 点 1 的 生物 总 量 , 计 算 站 点 2 的 生物 总 量 ,计算 站 点 3 的 生物 总 
量 , 计 算 站 点 4,5 的 生物 总 量 。 寻 找 一 个 可 以 一 步 就 完成 这 个 工作 的 函数 
(每 行 的 和 ) ,也 可 以 使 用 循环 这 种 笨拙 的 办 法 ,但 是 就 很 不 简洁 了 。 

计算 站 点 1 的 不 同 物种 数量 (物种 丰富 度 ) ,计算 站 点 2 的 物种 丰富 度 ， 
同样 计算 站 点 3,4 和 5 的 。 寻 找 一 个 可 以 一 步 就 完成 这 个 工作 的 函数 。 

编写 计算 所 有 多 样 性 指数 的 函数 代码 ,确保 用 户 可 以 选择 所 要 计算 的 
指数 ,同时 确保 这 个 代码 可 以 处 理 缺 失 值 。 

如 果 你 很 优秀 的 话 , 再 计算 一 下 香农 指数 。 并 使 用 这 个 函数 处 理 一 下 
前 面 的 植物 数据 。 


hs 


图 形 工具 


第 5 章 介 绍 了 plot 函数 。 我 们 介绍 了 基本 的 散 点 图 ,修改 绘图 特性 ， 
添加 z 轴 和 y 轴 标 签 以 及 主 标题 。 本 章 我 们 介绍 更 多 的 图 形 工具 。 但 是 
它们 并 非 都 是 我 们 感 兴趣 的 。 例 如 ,我 们 从 来 没有 使 用 过 饼 图 或 者 条 形 
图 。 但 是 这 些 图 形 应 该 在 许多 科学 家 可 供 挑选 的 最 后 名 单 里 ,所 以 我 们 发 
现 有 必要 在 本 书 中 包括 它们 。 在 7.1 节 和 7.2 节 里 讨论 它们 。 检 测 离 群 值 
的 工具 一 一 盒 形 图 和 克 里 夫 兰 点 图 一 一 分 别 在 7. 3 节 和 7.4 节 介 绍 。 我 们 
在 图 中 采用 均值 加 上 线 的 方式 来 表示 标准 误 。7. 5 节 进 一 步 讨 论 散 点 图 。 
多 面板 散 点 图 在 7.6 节 和 7.7 节 讨论 ,在 单个 窗口 显示 多 幅 图 形 的 高 级 工 
具 在 7.8 节 给 出 。 


7.1 饼 图 


7.1.1 禽 流感 数据 的 饼 图 


我 们 示范 3. 7 节 习 题 1 的 禽 流 感 数据 的 饼 图 。 回 忆 那 些 数 据 表示 世界 
卫生 组 织 (WHO) 报 告 的 已 证 实 的 人 类 感染 禽 流 感 病例 的 数目 。 这 是 从 
WHO 网 站 www. who. int 上 摘 取 的 几 个 国家 的 数据 并 复制 过 来 仅仅 为 了 
教学 的 目的 。 我 们 把 Excel 文件 BidFlu. zts 里 的 数据 输出 到 制 表 符 分 割 
的 名 称 为 Bird fliucases. tzt 的 ascii 文件 。 下 列 代 码 输入 数据 并 显示 常用 
的 信息 。 
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> setwd("C:/RBook/") 

> BFCases <- read.table (file = "Birdflucases.txt", 
header = TRUE) 

> names (BFCases) 


[1] "Year" "Azerbaijan" "Bangladesh" 
[4] "Cambodia" "China" "Djiboutim 
[7] "Egypt" "Indonesia."” "Iraq 
[10] "LaoPDR" "Myanmar" "Nigerian 
[13] "Pakistan" "Thailand" "Turkey" 


[16] "VietNam" 
> str(BFCases) 
“data.frame' : 6 obs. of 16 variables: 


$Year : int 2003 2004 2005 2006 2007 2008 
$Azerbaijan: int 0 0 


0800 
$Bangladesh: int 000001 
$Cambodia : int 004210 
$China st 
$Djibouti : int 000100 
$Egypt : int 00018257 
$Indonesia.: int 0 0 20 55 42 18 
$Iraq sn :0 903 900 
$LaoPDR : int 000020 
$Myanmar : int 000010 
SNigeria : int000010 
SPakistan : int 000030 
$Thailand : int 0175300 
$Turkey : int 0001200 
$VietNam  : int 3 29 61 085 


我 们 有 2003 一 2008 每 年 的 数据 。 第 一 个 变量 包括 年 份 。 我 们 可 以 从 
这 个 数据 集 里 了 解 很 多 信息 。 一 个 有 趣 的 问题 是 禽 流感 的 数量 是 否 随 着 
时 间 增 长 。 我 们 可 以 对 单个 国家 或 者 所 有 的 数据 描述 这 个 问题 。 后 者 可 
以 通过 如 下 计算 
> Cases <- rowSums (BFCases[, 2:16]) 


> names (Cases) <- BFCases[, 1] 
> Cases 





2003 2004 2005 2006 2007 2008 
4 46 98 115 88 34 
BFCases 的 2 一 16 列 包括 各 个 国家 的 信息 。rowSums 函数 计算 每 年 的 
和 ,names 函数 给 变量 Cases 加 上 2003 一 2008 年 的 标签 。( 请 注意 2008 年 
的 34 个 病例 容易 使 人 误解 ,因为 这 写 了 2008 年 的 一 半 。 如 果 这 是 一 个 正 


7.1 饼 图 





确 的 统计 分 析 , 那么 2008 年 的 数据 将 被 舍弃 .)R 中 实现 饼 图 的 函数 是 
pie。 它 有 多 个 选项 ,其 中 的 一 些 如 图 7. 1 所 示 。pie 函数 要 求 输入 的 是 一 


个 非 负 的 数值 型 向 量 ; 更 多 是 可 选 的 ,比如 处 理 标签 .颜色 等 。 








Ordinary pie chart B Grey colours 
2003 
中 2004 
2004 
2007 
2003 
2006 2008 
2007 
Rainbow colours 


2008 20032004 


3D pie chart 
-0 ， ch i 


2007 








图 7.1 A: 标 准 饼 图 (Ordinary pie chart)。B: 灰 色 饼 图 (Grey colours)。C: 具 有 


彩虹 色彩 的 饼 图 (Rainbow colours, 在 印刷 过 程 转换 成 了 灰色 )。 
维 饼 图 (3D pie chart) 


7. 1 由 以 下 的 R 代码 生成 。 


> par(mfrow = c(2, 2), mar 


= CcC(3, 3, 2, 1)) 
> pie(Cases, main = 


"Ordinary pie chart") 


#aA 
> pie(Cases, col = gray (seq(0.4, 1.0, length = 6)), 
Clockwise = TRUE, main = "Grey colours™") #B 
>pie(Cases, col = rainbow (6), clockwise = TRUE, 
main = "Rainbow colours") #C 
>1ibrary (plotrix) 
>pie3D(Cases, labels = names (Cases), explode = 0.1 
main = "3Dpie chart", labelcex =0.6) #D 


下 节 讨论 par 函数 的 用 法 。 变 量 Cases 的 长 度 为 6 并 且 包 括 每 年 的 总 
数 。 命 令 pie(Cases) 生 成 的 饼 图 如 图 7. 1A 所 示 。 请 注意 切片 方向 是 逆 时 
针 的 ,这 可 能 比较 难以 使 用 ,因为 我 们 的 变量 是 与 时 间 有 关 的 。 在 第 二 个 
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饼 图 (图 7. 1B) 里 我 们 用 选项 clockwise = TRUE 翻转 了 方向 。 我 们 也 改变 
了 颜色 ,但 是 ,因为 这 本 书 不 是 彩色 印刷 ,请 你 自己 动手 :输入 代码 并 观察 
面板 A-C 里 饼 图 的 颜色 。 因 为 你 的 大 部 分 工作 可 能 使 用 灰白 色 的 论文 或 
者 报告 结束 ,因此 我 们 推荐 你 开始 就 使 用 灰白 色 。 唯 一 的 例外 是 做 幻灯 片 
放映 ,这 时 提供 彩色 的 饼 图 是 有 用 的 。 请 注意 “有 用 的 ” 指 的 是 “彩色 的 ”而 
不 是 饼 图 本 身 。 饼 图 的 主要 问题 显示 在 图 7. 1: 尽 管 2005 年 和 2006 年 有 
最 大 的 切片 。 但 是 它 难以 确定 是 否 你 闭 门 不 出 就 能 幸免 于 下 一 个 流感 ,或 
者 “只 有 ” 极 少数 人 不 幸 感染 禽 流感 。 饼 图 没有 给 出 样本 大 小 的 信息 。 

最 后 ,图 7. 1D 展示 了 一 个 三 维 饼 图 。 虽然 现在 它 看 起 来 更 像 是 一 个 
真正 的 馅 饼 , 但 是 它 甚至 比 另 外 三 个 图 表述 的 更 不 清晰 。 为 了 生成 这 个 图 
形 ,你 需要 安装 plotrix 包 。 函 数 pie3D 有 很 多 选项 ,因此 我 们 建议 查阅 帮 
助 文件 以 提高 标签 的 可 读 性 。 


7.1.2 par 函数 


par 函数 有 一 个 很 长 的 可 以 改变 的 图 形 参数 (参见 ? par) 列 表 。 有 一 
些 选项 是 有 用 的 ;而 另外 一 些 选 项 你 可 能 从 来 不 用 。 

mfrow = c(2,2) 生 成 一 个 具有 4 个 面板 的 图 形 窗口 。 把 c(2,2) 改 成 
c(1,4) 或 者 c(4,1) 会 生成 一 行 (或 列 )4 个 饼 图 。 如 果 多 于 4 个 图 ,比如 12 
个 ,可 以 使 用 mfrow = c(3,4) ,尽管 显得 有 些 拥挤 。 

mar 选项 指定 每 个 图 形 ( 本 例 中 是 饼 图 ) 周 围 空白 的 大 小 。 空 白 定义 为 
四 侧 边 缘 的 线 的 数目 ,底部 、 左 侧 、 顶 部 、 右 侧 。 各 自 的 缺 省 值 分 别 是 (5， 
4,4,2) + 0.1。 增 加 这 些 值 将 会 出 现 更 多 空白 。 通 过 不 断 的 试验 ,我 们 选 
择 c(3,3,2,1)。 

如 果 我 们 执行 上 述 4 个 饼 图 的 代码 ,随后 ,再 生成 男 外 一 个 图 形 ,那么 
par 函数 将 会 出 现 一 个 问题 。R 仍然 处 在 2X2 的 模式 ,将 会 禾 盖 图 7. 1A， 
而 其 它 三 个 图 形 如 原来 一 样 。 下 一 个 图 形 将 覆盖 面板 B, 如 此 下 去 。 有 两 
种 方法 可 以 避免 这 样 。 第 一 种 简单 的 方法 是 在 R 生成 新 的 图 形 前 关闭 具 
有 4 个 面板 的 图 形 。 这 只 需要 鼠标 的 单 击 。 另 一 种 比较 复杂 的 方法 是 通 
过 编程 : 





> op <- par (mfrow c(2, 2), mar = Cc(3, 722277 

> pie(Cases, main "Ordinary pie chart") 

> pie(Cases, col = gray(seq(0.4, 1.0, length = 6)), 
Clockwise = TRUE, main = "Grey colours") 

> pie(Cases, col = rainbow(6), clockwise = TRUE, 
main = "Rainbow colours") 
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> pie3D(Cases, labels = names (Cases), explode = 0.1, 
main = "3D pie chart", labelcex = 0.6) 

> par (op) 

图 形 参数 的 设置 保存 在 第 一 行 的 变量 op 里 。 图 形 的 生成 如 前 所 示 ， 
最 后 一 行 代码 返回 缺 省 设置 。 在 命令 par(op) 后 将 生成 任意 的 新 图 形 , 和 
函数 par 没有 使 用 过 一 样 。 它 是 整洁 的 编程 ,但 需要 更 多 的 输入 。 人 们 往 
往 由 于 懒惰 而 选择 第 一 种 方法 。 然 而 ,为 了 良好 的 编程 实践 ,我 们 建议 作 
出 额外 的 努力 。 你 也 能 在 帮助 文件 里 看 到 这 种 编程 风格 。 


条 一 练习 使 用 pie 函数 完成 7. 10 节 的 习题 1。 


7.2 条 形 图 和 带 形 图 


我 们 给 出 两 个 条 形 图 的 例子 ,另外 一 种 类 型 的 图 形 不 是 我 们 工具 箱 的 
一 部 分 。 在 第 一 个 例子 中 ,我 们 继续 使 用 禽 流感 数据 并 给 出 一 个 条 形 图 显 
示 禽 流感 病例 总 数 和 每 年 的 死亡 数 。 在 第 二 个 例子 中 ,使 用 一 个 海底 生物 
数据 集 ,以 每 个 海滩 的 平均 值 绘制 条 形 图 。 最 后 一 节 , 我 们 给 出 一 个 带 形 
图 可 以 形象 化 地 看 到 类 似 的 信息 。 


7.2.1 使 用 禽 流感 数据 绘制 条 形 图 


在 上 一 节 中 ,使 用 禽 流感 数据 集 绘制 了 显示 每 年 病例 总 数 的 饼 图 。 除 
了 禽 流感 病例 ,死亡 人 数 在 制 表 分 隔 符 的 ascii 文件 Birdfiudeaths. tzrt 也 
是 可 用 的 。 用 以 下 命令 载 和 数据 : 
> BFDeaths <- read.table (file = "Birdfludeaths.txt", 
header = TRUE) 
> Deaths <- rowSums (BFDeaths[, 2:16]) 


> names (Deaths) <- BFDeaths[, 1] 
> Deaths 


2003 2004 2005 2006 2007 2008 

4 32 43 79 59 26 

这 些 数据 的 结构 和 禽 流 感 病例 相同 。 我 们 可 以 看 到 病例 数目 随时 间 
变化 ,并 且 可 以 比较 病例 的 死亡 数目 。 

使 用 变量 Cases (参见 7. 1 节 计 算 Cases 的 代码 ) 的 数据 给 出 图 7. 2A 
的 条 形 图 可 以 看 到 病例 数目 随时 间 的 变化 。 回 忆 Cases 是 带 有 标签 
2003 一 2008 的 6 个 值 。 每 年 的 数据 做 一 个 竖 直 的 条 形 。 这 个 图 形 比 饼 图 
更 有 用 ,因为 我 们 可 以 从 y 轴 读 到 实际 的 值 。 然 而 , 仅 这 6 个 值 却 需 要 浪 
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图 7.2 A: 标 准 条 形 图 展示 了 每 年 的 禽 流 感 病例 (Bird flu cases) 数 目 。B: 堆 积 条 形 
图 展示 了 累积 每 年 的 病例 (Cases) 和 死亡 (Deaths) 的 总 数 (请 注意 2003 年 的 
值 很 难看 出 )。C: 每 年 的 累积 病例 (灰色 ) 和 死亡 (白色 ) 数 。D: 邻 接 的 条 形 
图 代表 每 年 的 病例 和 死亡 数目 


下 面 代码 的 开始 两 行 用 来 生成 面板 A 的 条 形 图 。 剩 余 的 代码 对 应 于 


面板 B- D: 

> par(mfrow = c(2, 2), mar = c(3, 3, 2, 1)) 

> barplot (Cases , main = "Bird flu cases") #A 

> Counts <- cbind(Cases, Deaths) 

> barplot (Counts) #B 

> barplot (t (Counts), col = gray(c(0.5, 1))) #C 

> barplot (t (Counts), beside = TRUE) #D 
P.133 在 面板 B- D 中 ,我 们 组 合 了 病例 和 死亡 数据 ;它们 称 为 Counts 并 且 

是 6X2 维 的 : 

> Counts 

Cases Deaths 

2003 4 4 

2004 46 32 

2005 98 43 

2006 115 79 

2007 88 59 


2008 34 26 
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在 面板 B 中 条 形 图 代表 每 年 的 数据 。 该 图 没有 给 出 有 用 的 信息 。 此 
外 ,小 数量 的 年 代 ( 比 如 2003) 几 乎 是 看 不 见 的 。 为 了 生成 面板 C, 我 们 使 
用 函数 上 得 到 Counts 的 转 置 ,使 函数 barplot 的 输入 是 2X6 维 的 矩阵 。 
> 上 (Counts) 

2003 2004 2005 2006 2007 2008 

Cases 4 46 98 115 88 34 
Deaths 4 32 43 79 59 26 

尽管 你 在 文献 中 见 过 很 多 此 类 图 形 , 但 它们 很 容易 误导 。 如 果 你 比较 
彼此 的 白色 盒子 ,你 的 眼睛 比较 倾向 于 沿 着 y 轴 的 值 , 但 是 这 些 会 受到 灰 
色 盒 子 的 影响 。 如 果 你 的 目的 是 表明 每 年 病例 数 都 超过 死亡 数 ,该 图 可 能 
足够 了 (比较 组 成 部 分 )。 所 有 的 条 形 图 中 ,面板 D 可 能 是 最 好 的 。 它 比较 
每 年 的 病例 数 和 死亡 数 ,并 且 , 因 为 每 年 只 有 两 个 种 类 , 它 也 可 以 比较 所 有 
年 份 的 病例 和 死亡 数 。 


7.2.2 显示 均值 和 标准 差 的 条 形 图 


在 Zuur 等 人 (2007) 的 著作 第 27 章 中 ,主要 的 样本 来 自 于 荷兰 海岸 线 
9 个 海滩 的 45 个 站 点 。 通 过 所 有 样本 可 以 识别 超过 75 个 海底 生物 物种 。 
在 第 6 章 ,我 们 应 用 一 个 函数 计算 了 物种 丰富 度 , 不 同 物种 的 数目 。 文 件 
RIKZ2. txt 包含 45 个 站 点 的 丰富 度 的 值 ,其 中 有 一 列 确定 不 同 的 海滩 。 
下 列 R 代码 载 人 数据 并 计算 每 个 海滩 的 平均 丰富 度 和 标准 差 。 
tapply 函数 已 经 在 第 4 章 ? 讨 论 过 。 
setwd("C:/RBook/") Rp 
> Benthic <- read. table (file = "RIKZ2.txt", 
header = TRUE) 
> Bent.M <- tapply (Benthic$Richness, 
INDEX = Benthic$Beach, FUN = mean) 
Bent.sd <- tapply (Benthic$Richness, 
INDEX = Benthic$Beach, FUN = sd) 
> MSD <- cbind (Bent.M, Bent.sd) 
变量 Bent.M 包含 了 9 个 海滩 中 每 一 个 海滩 平均 丰富 度 的 值 ,Bent. sd 包含 
标准 差 的 值 ,我 们 通过 cbind 命令 把 它们 组 合 在 矩阵 MSD 里 。 它 们 的 值 如 下 : 
> MSD 

















v 


Vv 


Bent.M Bent.sd 
1 11.0 1.224745 
2 12.2 5.357238 


”请 注意 我 们 省 略 了 文本 INDEX 二 和 FUR= 。 
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3 3.4 1.816590 
4 2.4 1.341641 
3 7.4 8.532292 
6 4.0 1.870829 
7 2.2 1.303840 
8 4.0 2.645751 
9 4.6 4.393177 


使 用 下 面 的 过 程 可 以 生成 均值 作为 条 形 图 并 且 标 准 差 作 为 条 形 图 (图 
7. 3A) 上 延伸 的 垂直 线 的 图 形 。 为 了 使 图 形 显示 均值 ,输入 
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图 7.3 A: 展 示 海 底数 据 的 条 形 图 。 条 形 代 表 均 值 季 直线 表示 标准 差 。 在 印刷 
过 程 中 彩色 被 转换 成 了 灰白 色 。B: 原 始 数据 的 带 形 图 。 实心 点 表示 每 
个 海滩 的 均值 , 线 代 表 均 值 十 /一 标准 误 


> barplot (Bent.M) 
添加 标签 和 一 些 可 能 感 兴趣 的 色彩 : 


> barplot (Bent.M, xlab = "Beach", ylim = c(0, 20), 
ylab = "Richness", col = rainbow(9)) 
表示 标准 差 的 垂直 线 通过 函数 arrows 被 加 到 图 形 上 ,该 函数 在 坐标 为 
(zyy) 和 (zs,yz) 的 两 点 间 画 一 个 箭头 。 告 诉 R 在 点 (x,y1) 和 (Zz,ys) 画 
一 个 箭头 ,因为 两 点 具有 相同 的 值 , 将 会 产生 一 个 垂直 箭头 。2 的 值 是 
均值 ,y* 的 值 是 均值 加 上 标准 差 。z 是 条 形 图 中 点 的 坐标 值 。 下 列 代码 得 
到 这 些 值 并 生成 图 7. 3A。 
> bp <- barplot (Bent.M, xlab = "Beach", ylim = cf0,20) 
ylab = "Richness", col = rainbowf9) 1) 
> arrows (bp, Bent.M, bp, Bent.M + Bent.sd, lwd = 1.5, 
angle = 90, length = 0.1) 
> box() 
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bp <- barplot(Bent.M,...) 帮 助 我 们 解决 了 问题 。 了 解 它 具体 做 了 
什么 最 好 的 方法 是 输入 : 


> bP 


[1,] 
[2,] 
[3,] 
[4,] 
[5,] 
[6,] 
[7,] 
[8,] 
[9,] 
它们 是 沿 = 轴 的 每 个 条 形 图 的 中 点 ,被 用 来 作为 arrows 函数 的 输入 。 
选项 angle = 90 和 length - 0.1 把 箭头 的 顶端 转变 成 垂直 直线 。lwd 表示 
线 的 宽度 缺 省 值 是 1。box 函数 围绕 图 形 画 一 个 盒子 。 不 要 这 条 命令 运行 
代码 看 一 下 会 发 生 什么 。 


7.2.3 海底 数据 的 带 形 图 


在 上 一 节 中 使 用 了 海底 生物 数据 集 ,条 形 图 表示 每 个 海滩 的 平均 物种 

丰富 度 的 值 ,图 中 的 线 表示 标准 差 。Zar(1999) 的 7. 4 节 讨论 了 何 时 显示 标 p.136 
准 差 .标准 误 或 者 二 倍 标准 误 ( 假 设 是 一 个 大 样本 )。 生 成 原始 数据 的 均 

值 ,和 均值 附近 的 标准 差 或 者 标准 误 的 图 形 是 比较 容易 的 。 图 7. 3B 给 出 

了 一 个 例子 。 我 们 使 用 stripchart 函数 代替 了 plot 函数 。 空 心 点 表示 原 

始 数据 。 我 们 加 入 随机 拌 动 (方差 ) 区 分 相同 的 观察 值 ,否则 它们 将 会 重 

合 。 实 心 点 表示 每 个 海滩 的 均值 ,它们 已 经 在 上 一 节 计算 出 来 。 我 们 显示 

了 标准 误 , 它 是 由 标准 差 除 以 样本 容量 (每 个 海滩 有 五 个 观察 值 ) 的 平方 根 
得 到 。 在 R 里 ,可 以 通过 如 下 得 到 ， 


> Benth.le <- tapply (Benthic$Richness, 
INDEX = Benthic$Beach, FUN = length) 
> Bent.se <- Bent.sd / sqrt (Benth.1e) 


现在 变量 Bent. se 包含 标准 误 。 在 图 形 上 加 一 条 线 表示 标准 误 可 以 使 
用 arrow 函数 ;该 箭头 从 均值 绘制 到 均值 加 上 标准 误 ,同时 也 从 均值 绘制 到 
均值 减 去 标准 误 。 代 码 如 下 。 


OarwWPOm 


- 
Oe 
-POMwPOJP 
Ww 
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> stripchart (Benthic$Richness ~ Benthic$Beach, 
vert = TRUE, pch = 1, method = "jitter", 
jit = 0.05, xlab = "Beach", ylab = "Richness") 
> points(1:9, Bent.M, pch = 16, cex = 1.5) 
> arrows (1:9, Bent.M, 
1:9, Bent.M + Bent.se, lwd = 1.5, 
angle = 90, length = 0.1) 
> arrows (1:9, Bent.M, 
1:9, Bent.M - Bent.se, lwd = 1.5, 
angle = 90, length = 0.1) 


stripchart 函数 的 选项 的 含义 不 言 自明 。 改 变 它们 看 一 下 会 发 生 什 
么 。points 函数 在 均值 上 加 一 些 点 。 你 也 可 以 使 用 plot 函数 代替 
stripchart 函数 ,但 是 它 没有 method = "jitter" 选 项 。 你 可 以 使 用 jitter 
(Benthic $ Richness) 代 替 。Dalgaard(2002) 的 6. 1. 3 节 给 出 了 类 似 的 R 
代码 。 

和 练习 7. 10 节 的 习题 2。 这 是 一 个 利用 植被 数据 练习 barchart 
和 stripchart 函数 的 习题 。 





7.3 盒 形 图 


7.3.1 显示 猫 头 座 数 据 的 愈 形 图 


盒 形 图 应 该 是 你 最 经 常 使 用 的 工具 ,特别 是 当 你 使 用 连续 型 数值 响应 
( 因 ) 变 量 和 分 类 解释 ( 自 ) 变 量 时 。 其 目的 有 三 :探测 离 群 值 ,显示 不 同 成 
分 的 分 布 和 解释 变量 的 影响 。 正 确 使 用 这 个 图 形 工具 ,以 及 克 里 夫 兰 点 图 
( 它 的 完整 讲解 在 7.4 节 ), 可 以 给 数据 分 析 提供 一 个 好 的 开始 。 

在 第 6 章 我 们 使 用 了 猎头 雇 数 据 集 。Roulin 和 Bersier(2007) 观察 了 
雏 鸟 对 父亲 和 母亲 到 来 的 反应 。 通 过 在 鸟巢 内 放置 麦克 风 和 在 鸟巢 外 录 
像 ,他 们 选取 了 27 个 鸟巢 样本 ,研究 当 父母 带 来 食物 时 它们 请 求 行为 的 声 
音 。 抽 样 的 时 间 是 两 个 晚上 的 21 : 30 到 05 : 30 之 间 。 一 半 鸟 巢 食 物 缺 乏 
而 另 一 半 鸟 梨 食 物 充 足 ( 第 二 天 晚上 这 种 情形 进行 了 颠倒 )。 变 量 
ArrivalTime 表示 一 个 父母 带 着 食物 到 达 栖 息 地 的 时 间 。“ 雏 鸟 协商 行为 ” 
表示 每 个 鸟巢 的 平均 呼叫 次 数 。 

主要 问题 之 一 是 是 否 存在 一 个 喂养 协议 的 影响 和 父母 性 别 的 影响 。 
这 种 分 析 需 要 混合 效应 模型 技术 ,Zuur 等 人 (2009) 的 著作 有 完整 的 描述 。 
在 进行 任何 复杂 的 统计 分 析 之 前 ,生成 盒 形 图 是 有 帮助 的 。 使 用 boxplot 
函数 很 容易 生成 锥 鸟 协 商行 为 数据 的 盒 形 图 见 第 1 章 。 在 第 6 章 里 ,对 猫 
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头 鹰 数据 我 们 给 出 了 names 和 str 函数 的 结果 ,这 里 不 再 重复 。 


> setwd("C:/RBook/") 
> Owls <- read.table(file = "Owls.txt", header = TRUE) 
> boxplot (Owls$NegPerChick) 

结果 图 形 如 图 7. 4 所 示 。 盒 形 图 解释 的 一 个 简短 描述 在 图 形 标签 里 。 
这 里 有 5 个 潜在 的 离 群 值 ,说 明 需 要 进行 进一步 的 研究 。 


Negotiation per chick 





6 
| 
-| ooo oo 








OE PE me 


图 7.4 猫 头 座 锥 鸟 协商 行为 的 盒 形 图 。 粗 的 水 平 线 是 中 位 值 ; 盒 形 图 通 
过 第 25 和 75 百分点 (上 下 四 分 位 点 ) 定 义 。 两 者 之 间 的 差 称 为 分 
散 度 。 点 线 有 1.5 倍 分 散 度 的 长 度 。( 如 果 点 的 值 小 于 第 75 个 百 
分 点 十 1.5X 分 散 度 , 则 向 上 的 点 线 的 长 度 会 变 短 ,向 下 的 点 线 与 
之 类 似 。 这 也 解释 了 盒 形 图 的 底部 为 什么 没有 线 .) 所 有 落 在 这 个 
范围 外 部 的 点 称 为 潜在 离 群 值 。 见 Zuur 等 人 (2007) 的 著作 第 4 
章 讨论 这 样 的 点 是 否 是 实际 的 离 群 值 。 请 注意 本 例 中 第 25 个 百 
分 点 也 是 最 小 值 ( 有 很 多 值 为 零 ) 


7.5 说 明 双 亲 的 性 别 ( 面 板 A) ,食物 处 理 方式 (面板 B) 以 及 双亲 的 
性 别 和 食物 处 理 方式 的 交互 作用 (面板 C 和 DD) 可 能 产生 影响 。 因 为 变量 
名 较 长 ,它们 没有 在 面板 C 里 完整 地 显示 。 我 们 使 用 names 选项 对 面板 C 
加 标签 重新 生成 盒 形 图 ,如 面板 D 所 示 。 结 果 显 示 可 能 存在 食物 处 理 方式 
的 影响 。 交 互 作用 不 明显 , 它 可 以 通过 正式 的 统计 分 析 得 到 证 实 。 生 成 图 
7.4 的 R 代码 如 下 。 面 板 C 和 D 通 过 结构 SexParent x FoodTreatment 生 
成 。 代 码 的 含义 是 不 言 自明 的 。 
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图 7.5 A: 基 于 双亲 性 别 的 猫头鹰 雏 鸟 协商 行为 的 盒 形 图 。B: 基 于 食物 处 理 方式 的 猫 
头 鹿 雏 鸟 协 商行 为 的 盒 形 图 。C: 基 于 双亲 性 别 和 食物 处 理 方式 的 猫 头 唐 雏 鸟 
协商 行为 的 盒 形 图 。D: 和 面板 C 相同 ,添加 了 标签 

> Parfmfrow = c(2,2), mar = c(3, 3, 2, 1)) 

> boxplot (NegPerChick ~ SexParent, data = Owls) 

> boxplot (NegPerChick ~ FoodTreatment, data = Owls) 

> boxplot (NegPerChick ~ SexParent * FoodTreatment, 

data = Owls) 

> boxplot (NegPerChick ~ SexParent * FoodTreatment, 

names = c("F/Dep", "M/Dep", "F/Sat", "M/Sat"), 
data = Owls) 
有 时 在 一 个 图 形 上 得 到 所 有 标签 需要 更 多 创意 。 例 如 ,图 7.6 展示 了 

基于 鸟巢 的 雏 鸟 协商 行为 的 一 个 盒 形 图 。 这 里 有 27 个 具有 较 长 名 字 的 鸟 

巢 。 如 果 我 们 键入: 


> boxplot (NegPerChick ~ Nest, data = Owls) 


只 有 一 些 标 签 显 示 。 解 决 的 方法 是 生成 不 带 水 平 轴线 的 盒 形 图 ,并 把 标签 
改 成 小 字体 ,以 适当 的 角度 放 在 盒 形 图 下 面 。 这 个 方法 听 起 来 有 些 复 杂 ， 
但 是 只 需要 三 行 R 代码 。 
> par(mar = c(2, 2, 3, 3)) 
> boxplot (NegPerChick ~ Nest, data = Owls, 
axes = FALSE, ylim = c (-3, 8.5)) 
> axis(2, at = c(0, 2, 4, 6, 8)) 
> text(x = 1:27, y = -2, labels = levels (Owls$Nest), 
cex = 0.75, srt = 65) 


因为 我 们 使 用 选项 axes = FALSE，boxplot 函数 画 出 的 盒 形 图 没有 轴 
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图 7.6 基于 27 个 鸟巢 的 猫头鹰 锥 鸟 协商 行为 的 盒 形 图 。 盒 形 图 的 形状 显示 可 
能 有 乌 巢 的 影响 ,建议 利用 混合 效应 模型 做 进一步 分 析 


线 。ylim 指定 垂直 轴 的 下 限 和 上 限 。 我 们 使 用 一 3 到 8. 5 代替 0 到 8. 5。 
这 样 允 许 我 们 把 标签 放 在 图 形 的 下 部 (图 7.6) 。 

axis 函数 画 一 个 轴 。 因 为 我 们 键入 2 作为 第 一 个 参数 ,所 以 绘 出 了 左 
边 的 垂直 轴 ,at 参数 具体 指定 刻度 记号 在 哪里 。text 命令 把 所 有 标签 放置 
在 适当 的 坐标 处 。cex 参数 指定 字体 大 小 (默认 值 是 1) 并 且 srt 定义 角度 。 
你 需要 试验 这 些 值 以 选择 最 适合 的 设置 。 


7.3.2 显示 海底 数据 的 盒 形 图 


回忆 海底 生物 数据 集 , 在 9 个 海滩 测量 了 物种 丰富 度 。 现 在 我 们 对 每 
个 海滩 生成 一 个 盒 形 图 (图 7. 7) 。 请 注意 每 个 海滩 只 有 5 个 观察 值 。 因 为 











， 图 7.7 在 海滩 作为 条 件 变量 的 情形 下 使 用 特种 丰富 度 作为 因 变 量 的 条 件 盒 
形 图 。 在 每 个 盒子 里 显示 了 每 个 海滩 的 观察 值 数 量 
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对 于 盒 形 图 这 是 较 少 的 数量 ,我们 想 在 图 形 上 对 每 个 海滩 的 样本 容量 增加 
信息 。 一 种 方法 是 在 boxplot 函数 的 选项 里 指定 varwidth = TRUE 以 使 得 
每 个 盒子 的 宽度 正比 于 每 个 海滩 上 观察 值 的 数量 。 然 而 ,我 们 改 为 选择 在 
每 个 盒子 内 加 入 每 个 海滩 的 样本 数量 。 首 先 ,我 们 需要 使 用 下 列 R 代码 获 
得 每 个 海滩 的 样本 容量 。 
> setwd("C:/RBook/") 
> Benthic <- read.table (file = "RIK22.txt", 

header= TRUE) 
> Bentic.n <- tapply (Benthic$Richness, Benthic$Beach, 


FUN = length) 
> Bentic.n 


34 9 
其 过 5 

tapply 函数 计算 每 个 海滩 的 观察 值 数量 , 5, 并 把 它们 存储 在 变量 
Benthic.n 内 。 盒 形 图 由 以 下 命令 生成 
> boxplot (Richness ~ Beach, data = Benthic, 

Col = "grey", xlab = "Beach", ylab = "Richness") 

这 里 没有 新 的 代码 。 问 题 是 在 盒子 里 放置 变量 Benthic.n 的 值 时 ,最 
好 在 中 心 (没有 必要 在 中 位 值 处 )。 回 忆 这 个 盒子 是 由 上 下 四 分 位 数 确定 。 
把 分 散 度 值 的 一 半 ( 上 四 分 位 数 减 去 下 四 分 位 数 ) 加 到 下 四 分 位 数 的 值 上 
将 找到 盒子 的 垂直 中 心 点 。 幸 运 的 是 ,所 有 的 这 些 值 可 以 通过 boxplot 函 
数 进行 计算 并 存储 在 一 个 列表 中 。 
> BP.info <- boxplot (Richness ~ Beach, data = Benthic, 


Col = "grey", xlab = "Beach", 
ylab = "Richness") 


列表 BP. info 包含 几 个 变量 ,BP. info $ stats 就 在 其 中 。boxplot 的 
帮助 文件 将 告诉 你 $ stats 的 第 二 行 包含 下 四 分 位 数 ( 对 于 所 有 海滩 ), 第 
四 行 显示 上 四 分 位 数 。 因 此 ,所 有 海滩 的 中 点 ( 沿 着 垂直 轴 ) 为 : 
> BP.midp <- BP.info$stats[2, J] + 

{BP.info$stats[4, ] - BP.info$stats[2,]) / 2 
现在 把 Benthic.n 的 值 放置 在 盒子 里 是 容易 做 到 的 : 
> text(1:9, BP.midp, Bentic.n, col = "white", font = 2) 

使 用 这 个 结构 我 们 可 以 把 任何 文本 放置 在 盒子 里 。 对 于 长 的 字符 串 ， 
你 可 能 需要 把 文本 旋转 90 度 。 

boxplot 函数 是 非常 灵活 的 , 它 有 很 多 属性 可 以 改变 。 可 以 参看 
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boxplot 和 bxp 帮助 文件 里 的 例子 。 


- 练习 7. 10 节 的 习题 3 和 4。 它们 是 使 用 植被 数据 和 寄生 虫 数据 
集 练习 boxplot 函数 的 习题 。 


7.4” 克 里 夫 兰 点 图 


点 图 ,也 称 为 克 里 夫 兰 点 图 ,是 检测 离 群 值 的 优秀 工具 。 见 Cleveland 
(1993) ,Jacoby(2006) ,或 Zuur 等 人 (2007,2009) 著 作 的 例子 。 








Observation number 











Observation number grouped by sex 





80 100 140 180 220 80 100 140 180 220 
Length (cm) Length (cm) 
图 7.8 A: 显 示 鹿 长 度 的 克 里 夫 兰 点 图 。z 轴 显 示 长 度 值 (Length),y 轴 显 
示 观 察 数量 (Observation number, 从 ascii 文件 载 人 )。 第 一 个 观察 
值 在 y 轴 的 底部 。B: 与 面板 A 相同 ,但 是 观察 值 根 据 性 别 分 组 。 
可 能 在 长 度 和 性 别 之 间 存 在 相关 关系 


图 7. 8 是 包含 鹿 数 据 集 (Vicente et al. ,2006) 的 两 个 点 图 ,该 数据 集 曾 
在 4.4 节 使 用 过 。 回 忆 该 数据 来 自 于 多 个 农场 月份 .年 份 和 性 别 。 其 中 
的 一 个 研究 目的 是 评估 鹿 内 E. cervi 寄生 虫 与 动物 身长 的 关系 。 在 做 任何 
分 析 之 前 ,我 们 应 该 检查 数据 集 里 的 每 个 连续 变量 是 否 为 离 群 值 。 这 可 以 
通过 盒 形 图 或 克 里 夫 兰 点 图 得 到 。 图 7. 8A 给 出 了 动物 身长 的 克 里 夫 兰 点 
图 。 大 多 数 动物 身长 大 约 在 150 厘米 ,但 是 有 三 个 动物 相对 较 小 (大 约 80 
厘米 ) 。 因 此 ,用 身长 作为 平滑 项 应 用 广义 加 性 模型 可 以 得 到 身长 梯度 的 
底 端 有 较 大 的 置信 带 。 

你 可 以 基于 分 类 变量 通过 观察 值 的 分 组 扩展 克 里 夫 兰 点 图 。 这 由 图 
7. 8B 完成 。 这 里 身长 的 值 由 性 别 分 组 。 请 注意 一 种 性 别 类 型 明显 较 大 。 


P.142 


P.143 


136 第 7 章 图 形 工具 





研究 的 目标 是 建立 寄生 虫 (E. cervi) 数 量 作为 身长 ,性别 .年 份 和 农场 的 函 
数 的 模型 ,以 确定 哪个 解释 ( 自 ) 变 量 是 关键 因素 。 然 而 ,如 果 这 些 变量 之 
间 是 相关 的 很 难说 明 哪 个 变量 是 重要 的 。 这 种 情况 被 称 为 共 线性 。 这 种 
情况 下 ,身长 对 性 别 的 可 视 化 是 有 用 的 ,并 且 可 以 使 用 以 性 别 为 条 件 的 身 
长 的 盒 形 图 或 者 克 里 夫 兰 点 图 (图 7. 8B) 。 

该 图 形 使 用 R 函数 dotchart 生成 。 包 Hmisc( 它 不 是 底层 包 的 一 部 
分 ) 里 的 函数 dotchart2 可 以 给 出 更 为 复杂 的 显示 。 我 们 把 讨论 限制 为 
dotchart。 数 据 可 以 由 下 列 两 行 代码 载 人 。 
> setwd("C:/RBook/") 
> Deer <- read.table ("Deer.txt", header = TRUE) 

在 4.4 节 我 们 已 经 看 到 names 和 str 命令 的 输出 结果 ,这 个 信息 就 不 
再 重复 。 图 7. 8A 的 克 里 夫 兰 点 图 由 下 列 R 代码 生成 。 
> dotchart (Deer$LCT, xlab = "Length (cm)", 

ylab = "Observation number") 

dotchart 函数 有 不 同 的 选项 。groups 选项 允许 数据 根据 分 类 变量 分 
组 。 
> dotchart (Deer$LCT, groups = factor (Deer$Sex)) 
Error in plot.window(xlim, ylim, log, asp, ...) : 

need finite ‘ylim values 

变量 Sex 有 人 缺失 值 ( 在 R 控制 台 输 入 Deer $ Sex 查看 ), 所 以 dotchart 
函数 停止 并 给 出 一 条 出 错 信息 。 缺 失 值 可 以 容易 地 通过 下 列 命令 移 除 。 
> Tsna <- is.na(Deer$Sex) 
> dotchart (Deer$LCT[!Isna], ' 

groups = factor(Deer$Sex[!Isna]), 
xlab = "Length (cm)", 
ylab = "Observation number grouped by sex") 

is. na 函数 生成 一 个 和 Sex 具有 相同 长 度 的 向 量 , 它 的 值 是 TRUE 和 
FALSE。 符 号 ! 把 它 的 值 做 一 个 颠倒 ,并 且 只 有 Sex 的 值 不 缺失 的 被 绘制 
出 。 请 注意 我 们 用 了 和 第 3 章 相似 的 代码 。 如 果 你 想 在 一 幅 图 里 有 两 个 
克 里 夫 兰 点 图 ,在 第 一 个 dotchart 前 输入 par(mfrow = c(1,2))。 


7.4.1 在 克 里 夫 兰 点 图 上 添加 均值 


当 样本 容量 较 小 时 , 克 里 夫 兰 点 图 可 以 很 好 地 替代 盒 形 图 。 图 7. 9A 
展示 了 本 章 前 面 使 用 的 海底 数据 的 克 里 夫 兰 点 图 。 回 忆 每 个 海滩 有 5 个 
观察 值 。 右 边 图 形 显示 了 同样 的 信息 并 加 上 了 每 个 海滩 的 均值 。 这 个 图 
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形 清楚 地 显示 至 少 有 一 个 “可 疑 的 ”观察 值 。 基 础 的 代码 在 后 面 给 出 。 前 
三 行 载 人 数据 ,并 且 把 Beach 定义 为 因子 。 带 有 两 个 面板 的 图 形 窗口 由 
par 函数 生成 。 第 一 个 dotchart 命令 与 鹿 数 据 类 似 。 对 于 第 二 个 


dotchart 命令 ,我 们 加 入 了 gdata 和 gpch 选项 。 


Beach 


图 7.9 海底 数据 的 克 里 夫 兰 点 图 。A: 重 直 轴 显示 的 是 抽样 站 点 ,基于 海滩 (Beach) 分 


g 代表 分 组 ,gdata 属性 用 来 覆盖 一 个 摘要 统计 量 比 如 中 位 值 ,或 者 ,如 我 
们 这 里 用 tapply 函数 计算 的 均值 。 最 后 ,legend 函数 用 来 添加 一 个 图 例 。 
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组 ,水 平 轴 表示 丰富 度 (Richness) 的 值 。B: 与 A 相同 ,加 上 每 个 海滩 的 均值 


我 们 将 在 本 章 的 后 续 部 分 更 详细 地 讨论 legend 函数 。 


setwd ("C:/RBook/™") 
Benthic <- read.table (file = "RIK22.txt", 


header TRUE) 


Benthic$fBeach <- factor (Benthic$Beach) 


par (mfrow 


cl(l, 


2)) 


dotchart (Benthic$Richness, groups = Benthic$fBeach, 


xlab = "Richness", ylab 


"Beach") 


Bent.M<-tapply (Benthic$Richness, Benthic$Beach, 


FUN 


= mean) 


dotchart (Benthic$Richness, groups = BenthicsfBeach, 
gdata = Bent.M, gpch = 19, xlab = "Richness", 


ylab = 
legend ("bottomright", c("values", 


pch 


"Beach") 


c(1, 19), bg = "white") 


"mean"™), 


P.144 


P.145 
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练习 7. 10 节 的 习题 5 和 6 使 用 猫头鹰 数据 和 寄生 虫 数 据 生成 
克 里 夫 兰 点 图 。 


7.5 重新 访问 plot 函数 


7.5.1 普通 的 plot 函数 


最 经 常用 到 的 绘图 命令 是 plot, 它 已 在 第 5 章 介 绍 。 它 是 一 个 直观 的 
函数 ,能 识别 你 想 画 什么 。R 是 一 个 面向 对 象 的 语言 :plot 函数 面 对 所 给 
的 对 象 ,建立 对 象 的 类 ,并 对 该 对 象 给 出 适当 的 绘图 方法 。 为 了 观察 一 个 
函数 (比如 plot) 可 以 利用 的 方法 ,键入 


> methods (plot) 


[1] plot.acf* plot.data.frame* plot.Date* 

[4] plot.decomposed.ts* plot.default Plot.dendrogram* 
[7] plot.density plot.ecdf plot.factor* 
[10] plot.formula* Plot.hclust* plot.histogram* 
[13] plot.HoltWinters* plot.isoreg* plot.1lm 

[16] plot.medpolish* plot.mlm plot.POSIXct* 
[19] plot.POSIX1t* Plot .ppr* plot .prcomp* 
[22] plot.princomp* plot.profile.nls* plot.spec 

[25] plot.spec.coherency plot.spec.phase plot.stepfun 
[28] plot.stl* plot.table* plot.ts 

[31] plot.tskernel* plot.TukeyHSD 


Non-visible functions are asterisked 


它们 是 存在 的 绘图 函数 ,并 且 只 是 默认 包 里 可 利用 的 函数 。 所 有 的 这 
些 函 数 可 以 通过 plot 函数 访问 。 例如 ,如果 你 想 做 一 个 主 成 分 分 析 
(principal component analysis, PCA) 并 想 打印 结果 ,是 不 需要 使 用 plot. 
princomp 的 ,因为 plot 函数 会 识别 你 进行 的 一 个 主 成 分 分 析 的 行为 ,并 调 
用 适当 的 绘图 函数 。 下 面 的 代码 是 另外 一 个 例子 。 
> setwd("C:/RBook/") 
> Benthic <- read.tableffile = "RIKZ2.txt"v 

header = TRUE) 


> Benthic$fBeach <- factor (Benthic$Beach) 
> plot (Benthic$Richness ~ Benthic$fBeach) 


前 三 行 载 人 本 章 前 面 使 用 的 海底 数据 集 并 定义 变量 Beach 为 因子 。 
plot 函数 理解 公式 Benthic $ Richness 一 Benthic $ fBeach 的 含义 ,生成 
了 盒 形 图 而 不 是 散 点 图 (参见 plot. factor 的 帮助 文件 )。 如 果 plot 函数 
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的 参数 是 一 个 数据 框 , 它 将 生成 多 组 图 ( 见 7. 6 节 )。 
7.5.2 plot 函数 的 更 多 选项 


在 第 5 章 ,我 们 讨论 了 使 用 plot 函数 绘制 两 个 连续 变量 相互 关系 的 图 
形 并 给 出 了 如 何 改变 特性 和 颜色 。 但 是 这 里 有 很 多 额外 的 选项 ,其 中 的 一 
些 我 们 在 这 节 剩 余部 分 给 出 。 我 们 使 用 海底 数据 再 次 示范 生成 两 个 连续 
变量 的 散 点 图 (图 7. 10A) 。 图 形 通过 以 下 代码 得 到 。 

> plot(y = Benthic$Richness, x = Benthic$NAP, 

xlab = "Mean high tide (m)", 

ylab = "Species richness", main = "Benthic data") 
> MO <- lm(Richness ~ NAP, data = Benthic) 
> abline (MO) 

新 增加 的 是 ln 和 abline 函数 。 这 里 不 过 多 地 讨论 统计 细节 ,lnm 利用 
线性 回归 建立 物种 丰富 度 作 为 平均 涨潮 水 平 的 函数 的 模型 ,结果 存储 在 列 
表 MO 里 ,abline 函数 添加 拟 合 线 。 请 注意 这 在 只 有 单个 解释 变量 (和 否则， 
绘制 二 维 图 形 的 结果 比较 困难 ) 时 才 工 作 ,并且 abline 函数 在 plot 函数 后 
才 执 行 。 
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图 7.10 A: 物 种 丰富 度 与 NAP( 平 均 涨潮 水 平 ) 同 时 加 上 一 条 线性 回归 直线 的 散 点 
图 。B: 与 面板 A 相同 ,使 用 x1im 和 ylim 函数 设置 了 工 轴 和 >》 轴 的 取 值 范 
围 。C: 与 面板 A 相同 ,但 是 没有 坐标 轴线 。D: 与 面板 A 相同 ,修改 了 > 轴 
的 坐标 轴 刻 度 和 < 轴 的 特征 字符 串 。 请 注意 站 点 是 高 潮 线 与 低潮 线 之 间 的 
区 域 , 所 以 平均 涨潮 水 平 是 负 值 
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P.147 通过 额外 的 参数 ,plot 函数 可 以 容易 地 扩展 为 在 图 形 上 添加 更 多 的 细 
节 。 下 表 给 出 了 一 些 最 经 常用 的 参数 。 


参 数 它 是 做 什么 的 ? 
main 在 图 形 上 添加 一 个 标题 
xlab,ylab 在 zx 轴 和 yy 轴 增加 标签 
xlim,ylim 设置 轴 的 上 下 限 
log Log 一 “x",log 一 “y",log 一 “xy" 生 成 对 数 轴 
type Type 一 “p",“l",“b",“o",“h",“s”"n" 用 于 绘图 点 , 线 ,由 线 连接 的 
点 , 线 连接 并 覆盖 点 ,从 点 到 坐标 轴 的 垂直 线 ,阶梯 线 , 只 有 坐标 轴 





前 面 我 们 示范 过 xlab 和 ylab 的 属性 。xlim 和 ylin 指定 xz 轴 和 y 轴 
的 范围 。 假 设 你 希望 设置 水 平 轴 的 范围 从 一 3 到 3 米 , 垂 直 轴 的 范围 从 0 
到 20 种 。 使 用 
> plot(y = Benthic$Richness, x = Benthic$NAP, 
xlab "Mean high tide (m)", 
ylab "Species richness", 
xlim = c(-3, 3), ylim = c(0,20)) 
xlim 参数 必须 具有 形式 c(x ,x;) ,其 中 x， 和 zs 是 数值 。Ylin 参数 具 
有 同样 的 要 求 。 结 果 如 图 7. 10B 所 示 。 
图 7. 10 中 的 面板 C 和 D 展示 了 其 它 选项 。 面板 C 不 包括 轴线 。R 代 
码 如 下 。 
> plot(y = Benthic$Richness, x = Benthic$NAP, 
type = "Nn", axes = FALSE, 
xlab "Mean high tide", 
ylab "Species richness") 
> points(y = Benthic$Richness, x = Benthic$NAP) 
type ="n" 生 成 没有 点 的 图 形 , 并 且 ,因为 我 们 使 用 axes = FALSE, 所 以 
没有 绘制 轴线 。 我 们 从 仅 有 标签 的 空白 窗口 开始 。points 函数 把 点 添加 
到 图 形 上 (请 注意 你 必须 在 points 函数 前 先 执行 plot 函数 ,否则 会 出 现 出 
错 信息 ) 。 
在 面板 C, 我 们 主要 告诉 R 准备 一 个 图 形 窗口 ,但 是 没有 绘制 任何 东 
西 。 我 们 可 以 继续 按 步 骤 生 成 面板 D 中 的 图 形 。axis 函数 是 这 个 过 程 的 
开始 。 它 允许 指定 位 置 、 方 向 和 坐标 轴 刻 度 大 小 以 及 文本 标签 。 
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> plot(y = Benthic$Richness, x = Benthic$NAP, 
type = "n" axes = FALSE, xlab = "Mean high tide", 
ylab = "Species richness", 
xlim = c(-1.75,2), ylim = c(0,20)) 
> points(y = Benthic$Richness, x = Benthic$NAP) 
> axis(2, at c(0, 10, 20), tcl = 1) 
> axis(1, at C(-1.75, 0v2) v 
labels = cf"Sea" "Water line", "Dunes")) 

前 两 行 的 代码 与 面板 C 的 相同 。axis(2,... ) 命 令 画 垂直 轴线 并 在 0， 
10 和 20 处 插入 刻度 长 度 为 1( 缺 省 值 是 一 0. 5) 。 设 置 tcl 为 0 消去 刻度 。 
向 外 的 刻度 点 通过 一 个 负 的 tcl 值 获得 ; 正 的 值 绘制 向 内 的 刻度 点 。axis 
(1,...) 命 令 绘 制 水 平 轴 , 并 且 , 在 值 一 1.75,0 和 2 处 添加 特征 字符 串 海 
洋 , 水 线 和 沙丘 。 见 axis 帮助 文件 以 获得 更 多 图 形 设备 。 


“练习 7.10 节 的 习题 ?7。 这 是 一 个 使 用 猫头鹰 数据 练习 plot 和 
axis 函数 的 习题 。 


7.5.3 增加 额外 的 点 文本 和 线 


本 节 讲 述 用 来 提高 图 形 视 觉 吸引 力 的 特征 。 可 能 的 修饰 有 不 同类 型 
的 线 和 点 、. 橱 格 图例. 轴 变换 和 更 多 其 它 的 特征 。 参 考 par 帮助 文件 ,通过 
键 人 ? par 获得 ,可 以 看 到 很 多 能 添加 或 者 更 改 的 特征 。 关 于 par 选项 我 
们 可 以 写 一 本 完整 的 书 ,其 中 的 一 些 我 们 已 经 在 第 5 章 或 者 本 章 前 面 的 部 
分 讲 过 。 更 多 的 将 在 第 8 章 讨论 。 然 而 ,即使 初学 者 也 希望 早点 学 习 par 
函数 的 一 些 信息 。 因 为 我 们 不 想 这 个 容量 成 为 电话 矢 大 小 ,我 们 以 鸟 敬 的 
方式 概述 地 讨论 par 和 绘图 选项 的 一 部 分 ,并 尝试 把 你 引导 到 相应 的 帮助 
文件 。 

函数 points,text 和 lines 经 常 在 R 里 一 起 出 现 并 在 前 面 的 一 些 章节 
使 用 过 。 

函数 points 在 一 个 图 形 上 添加 新 值 ,比如 z 值 和 (可 选 的 )y 值 。 缺 省 
情况 下 ,函数 绘制 点 ,所 以 正如 plot 中 ,type 设置 为 "p"。 然 而 ,所 有 其 它 
的 类 型 可 以 使 用 :"1" 是 线 ,"o" 是 连接 并 覆盖 点 的 线 ,"b" 是 点 和 线 ,"s" 和 
"s" 是 阶梯 线 ,"h" 是 垂直 线 。 最 后 ,"n" 生 成 没有 点 和 线 的 图 形 设备 ( 见 
7.5.2 节 )。 符 号 可 以 通过 使 用 pch 改变 ( 见 第 .5 章 )。 

函数 text 和 points 类 似 , 它 使 用 zx 和 (可 选 )y 的 坐标 但 加 上 一 个 在 
图 形 指定 位 置 的 包含 标签 字符 串 的 标签 向 量 。 它 包括 能 很 好 地 调整 字符 
串 在 图 形 上 的 位 置 的 额外 工具 。 例 如 ,属性 pos 和 offset。pos 属性 表示 位 
置 在 指定 坐标 点 下 、 左 、 上 、 右 方 (分 别 为 1,2,3,4) ,offset 使 标签 偏 移 指定 
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坐标 的 量 与 一 个 字符 宽度 成 一 定 比 例 。 这 两 个 选项 与 长 的 特征 字符 串 有 
关 因为 它们 不 能 在 R 的 缺 省 设置 里 正确 的 显示 。 

我 们 已 经 在 第 5 章 学 习 了 lines 函数 。 它 是 一 个 接受 坐标 并 连接 相应 
的 点 成 为 线 的 函数 。 


7.5.4 ”使 用 type = "n” 


利用 plot 函数 时 , 它 可 以 包括 属性 type ="n" 以 绘制 除数 据 以 外 的 所 
有 事情 。 图 形 是 为 数据 建立 的 ,包括 坐标 轴 以 及 它们 的 标签 。 为 了 去 除 这 
些 ,添加 axes = FALSE,xlab="",ylab =""。 那 么 就 会 什么 都 不 显示 。 然 
而 ,事实 并 非 如 此 ,因为 这 个 图 形 保留 plot 函数 在 第 一 部 分 输入 的 数据 。 
现在 用 户 可 以 完全 控制 构建 图 形 。 你 需要 坐标 线 吗 ? 如 果 是 ,你 希望 它们 
在 哪里 ,希望 它们 看 起 来 像 什 么 ?你 希望 这 些 数据 显示 为 点 还 是 线 呢 ? 所 
有 的 都 包含 在 绘图 的 缺 省 设置 里 ,并 且 更 多 的 ,可 以 改变 并 添加 到 你 的 图 
形 里 。 下 面 是 一 些 可 以 利用 的 不 同 的 变化 : 





命 令 描 述 
abline 添加 一 个 a,b( 截 距 ,斜率 ) 线 ,主要 是 回归 ,但 也 有 垂直 和 水 平 线 
arrows 添加 一 个 箭头 并 修改 顶端 类 型 
Axis 在 图 形 上 添加 一 个 坐标 轴 的 一 般 函 数 
axis 添加 坐标 轴线 
box 添加 不 同类 型 的 盒子 
contour 生成 等 高 线 图 ,或 者 在 已 有 图 形 上 添加 等 高 线 
curve 根据 相应 的 函数 或 者 表达 式 绘制 一 个 曲线 
grid 给 一 个 图 形 添加 杨 格 
legend 给 一 个 图 形 添 加 图 例 
lines 添加 线 
mtext 在 图 形 空白 处 或 者 绘图 设备 空白 处 插入 文本 
points 添加 点 ,但 是 可 以 包含 type 命令 
polygon 利用 工 和 >》 定义 的 顶点 绘制 多 边 形 
rect 绘制 长 方形 
rug 对 图 形 的 两 个 坐标 轴 之 一 添加 一 维 数据 表示 
Segments 添加 线 片 段 
text 在 图 内 添加 文本 


title 添加 标题 
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7.5.5 图 例 


第 一 次 遇见 图 例 函 数 时 会 感觉 有 些 困难 ,但 是 容易 掌握 。 在 图 7. 9 的 p.150 
克 里 夫 兰 点 图 里 加 上 图 例 的 代码 是 
> legend("bottomright", c("values", "mean") v 

pch = c(1, 19), bg ="white") 

第 一 个 属性 包括 x 和 y 坐标 ,或 者 如 这 里 显示 的 一 个 表达 式 。 其 它 可 
利用 的 表达 式 是 " bottom"," bottomleft"," left"," topleft"," top"， 
"topright","right" 和 "center"。 更 多 的 选项 可 以 参考 legend 的 帮助 文 
件 。 

Zuur 等 人 (2009) 使 用 了 一 个 鸟 类 数据 集 ,Loyn(1987) 最 初 分 析 了 该 
数据 集 继而 Quinn 和 Keough(2002) 做 了 分 析 。 森 林 鸟 密度 是 在 澳大利亚 
的 维多利亚 州 东南 部 的 56 个 森林 带 测量 的 。 研 究 的 目的 是 观察 鸟 密度 与 
6 个 栖息 地 变量 之 间 的 关系 :(1) 森 林带 的 大 小 ,(2) 与 最 近 森 林带 的 距离 ， 
(3) 与 最 近 大 森林 带 的 距离 ,(4) 森 林带 的 平均 高 度 ,(5) 被 空旷 地 隔离 的 年 
份 ,(6) 一 个 放牧 历史 指数 (1 一 轻 度 ,5 一 重度 ) 。Zuur 等 人 (2009) 的 附录 A 
给 出 了 用 线性 回归 方法 对 这 些 数据 的 详细 分 析 。 最 优 线 性 回归 模型 包括 
LOGAREA 和 GRAZE( 分 类 )。 为 了 形象 地 看 这 个 模型 是 做 什么 的 ,我 们 
绘制 拟 合 值 。 这 里 有 5 个 放牧 水 平 ,因此 ,线性 回归 ( 见 下 面 的 summary 命 
令 ) 给 出 了 鸟 类 丰富 度 与 每 个 放牧 水 平 里 LOGAREA 的 方程 。 这 些 都 是 
通过 













Observations with GRAZE = 1: 4BUNDi = 15.7 二 7.2 x LOG4REA4i 
Observations with GRAZE = 2: 4BUNDi = 16.1 + 7.2 x LOGAREA!; 
Observations with GRAZE = 3: ABUND. 5.5+7.2 x LOGAREA; 
Observations with GRAZE = 4: 4BUNDi = 14.1 +7.2 x LOGAREA; 


Observations with GRAZE = 5: 4BUNDi=3.8+7.2xZLOG4RE4i 


熟悉 线性 回归 的 读者 能 了 解 这 个 线性 回归 模型 在 分 类 变量 的 水 平 下 
截 距 是 正确 的 。 下 面 ,我 们 (i) 绘 制 ABUNDANCE 与 LOGAREA 数据 ， 
(iD 计算 5 个 放牧 带 的 拟 合 值 , (iii) 添 加 5 条 线 , 并 (iv) 添 加 一 个 图 例 。 结 
果 图 形 如 图 7. 11 所 示 。 下 面 一 步 一 步 说 明 它 是 如 何 生 成 的 。 

首先 , 读 人 数据 ,应 用 对 数 变换 ,并 使 用 绘图 函数 。 我 们 以 前 使 用 过 类 
似 的 R 代码 : 


> setwd{"C:/RBook/") 
> Birds <- read.tablel(file = "loyn.txt", header = TRUE) 
> Birds$LOGAREA <- 10g10 (Birds$AREA) 
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> plot (x = Birds$LOGAREA, y = Birds$ABUND, 
xlab = "Log transformed AREA", 
ylab = "Bird abundance") 
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图 7.11 Loyn 的 鸟 类 数据 的 5 条 拟 合 线 。 每 条 线 针 对 一 个 具体 的 放牧 带 


为 了 观察 5 个 斜率 和 截 距 的 来 源 , 使 用 代码 : 
> MO <- lm(ABUND~ LOGAREA + fGRAZE, data = Birds) 
> summary (MO) 

如 果 你 不 熟悉 线性 回归 ,不 需要 花费 时 间 努 力 了 解 这 些 。summary 的 
输出 包括 必需 的 信息 。 为 了 预测 每 个 放牧 水 平 合 适 的 鸟 类 丰富 度 ,我 们 需 
要 LOGAREA 的 值 。 最 简单 的 方法 是 观察 图 7. 11 并 选择 几 个 在 观察 数据 
范围 之 间 的 任意 值 ,比如 一 1,0,1,2 和 3。 
> LAR <- seq(from = -1, to = 3, by = 1) 
> LAR 
[杀生 -二 让 有 当 

现在 我 们 用 简单 的 微 积分 决定 每 个 放牧 水 平 的 丰富 度 的 值 ,R 代码 为 : 


> ABUND1 <- 15.7 + 7.2 * LAR 
> ABUND2 <- 16.1 + 7.2 * LAR 
> ABUND3 <- 15.5 + 7.2 * LAR 
> ABUND4 <- 14.1 + 7.2 * LAR 
> ABUND5 <- 3.8 + 7.2 * LAR 


把 拟 合 值 作为 线 添加 到 图 形 上 也 是 我 们 熟悉 的 领域 ( 见 第 5 章 )。 我 
们 没有 一 个 混乱 的 问题 ,因为 AREA 数据 已 经 从 一 1 到 3 进行 了 排序 。 
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> lines (LAR, ABUND1, lty = 1, lwd = 1, col =1) 
> lines (LAR, ABUND2, lty = 2, lwd = 2, col =2) 
> lines (LAR, ABUND3, lty = 3, lwd = 3, col =3) 
> lines (LAR, ABUND4, lty = 4, lwd = 4, col =4) 
> lines (LAR, ABUND5, lty = 5, lwd = 5, col =5) 


我 们 根据 视觉 兴趣 添加 了 不 同 的 线 型 .宽度 和 颜色 。 最 后 ,添加 了 图 
例 ; 见 下 面 的 R 代码 。 首 先 我 们 定义 一 个 含有 5 个 值 的 字符 串 legend. 
txt, 它 包含 我 们 想 作为 图 例 的 文本 。 然 后 legend 函数 把 图 例 放 在 左上 角 
位 置 ,第 一 个 放牧 水 平 的 线 在 图 例 中 用 黑色 (col = 1) ,实心 (lty= 1) 以 及 
正常 的 线 宽度 (lwd = 1)。 第 5 个 放牧 水 平 的 线 在 图 例 中 用 浅 蓝 色 (col = 
5) ,具有 形式 一 一 (lty = 5) 并 且 是 粗 的 (lwd = 5)。 
> legend.txt <- c("Graze 1", "Graze 2", 

"Graze 3", "Graze 4", "Graze 5") 


> legend("topleft", legend = legend.txt, 
col c(1l, 2, 3, 4, 5), 


lty = c(1, 2, 3, 4, 5), 
lwd = c(1l, 2, 3, 4, 5), 
bty = "o", cex = 0.8) 


属性 cex 指定 图 例 中 文本 的 大 小 ,bty 添加 围绕 图 例 的 盒子 。 


他 练习 7. 10 节 的 习题 8。 在 这 个 练习 里 ,对 雄性 和 肉 性 猫头鹰 数 
据 使 用 平滑 线 并 县 加 到 图 形 上 。1legend 函数 用 来 识别 它们 。 


7.5.6 识别 点 


函数 identify 用 来 识别 (和 绘制 ) 图 形 上 的 点 。 它 可 以 通过 给 定 图 形 
上 z，,y 的 坐标 完成 或 简单 地 输入 图 形 目 标 ( 一 般 的 定义 或 包括 坐标 )。 这 
里 是 一 个 例子 : 


> plot(y = Benthic$Richness, x = Benthic$NAP, 

xlab = "Mean high tide (m)", 

ylab = "Species richness", main = "Benthic data") 
> identify(y = Benthic$Richness, x = Benthic$NAP) 


在 identify 函数 的 属性 标签 里 ,可 以 包括 一 个 给 定点 标签 的 特征 向 
量 。 为 了 指定 位 置 和 相对 于 指定 点 标签 的 移动 量 ; 把 你 的 鼠标 放 在 点 附近 
并 左 击 ;R 将 在 点 附近 绘制 标签 数目 。 按 下 “Esc” 键 取消 这 个 过 程 。 也 可 
以 使 用 identify 函数 得 到 某 个 点 的 样本 数 ;参见 它 的 帮助 文件 。 请 注意 
identify 函数 只 对 plot 函数 生成 的 图 形 起 作用 ,不 对 盒 形 图 、 点 图 、 条 形 
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图 、 饼 图 或 者 其 它 的 图 形 起 作用 。 
7.5.7 改变 字体 和 字体 大 小 * 


本 节 比 较 深 入 ,可 以 在 第 一 次 阅读 时 跳 过 。 字 体 和 字体 大 小 在 R 里 有 
些 特殊 。 当 你 打开 一 个 绘图 设备 你 可 以 使 用 属性 pointsize, 它 将 使 用 默 
认 点 的 大 小 绘制 文本 。 默 认 字 体 映 射 提供 的 是 四 个 独立 于 设备 的 字体 系 
列 名 称 为 :"sans" 表 示 sansserif 字体 , "serif" 表 示 serif 字体 ,"mono" 表 示 
monospace 字体 ,"symbol" 表 示 symbol 字体 ,输入 windowsFonts() 可 以 查 
看 目前 已 经 安装 的 字体 类 型 。 

Font 定义 字 型 。 它 是 由 整数 指定 文本 使 用 哪个 字 型 。 如 果 可 能 ,设备 
驱动 程序 可 以 组 织 ,使 得 1 对 应 纯 文 本 ,2 对 应 粗 体 ,3 对 应 斜体 ,4 对 应 粗 
斜体 。 为 了 修改 默认 字体 ,我们 经 常 在 画图 时 忽略 我 们 想 修 改 的 默认 字体 
部 分 并 分 别 对 它 进行 编码 ,包括 字体 大 小 、 字 型 和 字体 类 型 的 选项 。 例 如 ， 
在 图 7. 11 里 添加 一 个 serif 字体 的 标题 ,使 用 


> title("Bird abundance", cex.main = 2, 
family = "serif", font.main = 1) 


这 将 绘制 “ 鸟 类 丰富 度 ” 为 标题 并 且 是 默认 字体 大 小 的 二 倍 , 具 有 常用 
字 型 的 serif 字体 风格 。 对 于 title 这 里 有 字体 大 小 和 字 型 的 专门 选项 ， 
cex. main 和 font. main。 有 时 你 可 能 需要 使 用 par 指定 字体 类 型 。 你 也 可 
以 对 text ,mtext,axis,xlab 和 ylab 改变 字体 和 大 小 。 对 于 具体 的 改变 字 
体 的 信息 请 参考 par 的 帮助 文件 。 


7.5.8 添加 特殊 符号 


你 可 能 经 常 需 要 在 图 例 或 者 标签 里 包含 特殊 符号 。 这 在 R 里 是 不 困 
难 的 ,尽管 它 可 能 需要 你 在 几 个 帮助 文件 里 寻找 你 真正 想 要 什么 。 最 经 常 
用 的 函数 是 expression。 你 可 以 通过 键入 demo(plotmath) 得 到 初步 的 印 
象 。 

这 里 有 一 个 简短 的 例子 。Mendes 等 (2007) 测 量 了 苏格兰 的 11 头 搁 
浅 的 抹香鲸 牙齿 生长 层 的 氮 同 位 素 成 分 。 图 7. 12 给 出 了 一 个 昵称 叫 
Moby 的 鲸 的 氮 同 位 素 比 例 与 年 龄 的 散 点 图 。 图 上 的 y 标签 包含 表达 式 
95N。 可 以 尝试 把 不 带 y 标签 的 图 形 输入 到 Word 里 并 在 投 到 一 个 期 刊 前 
添加 95 N, 但 是 它 可 以 容易 地 在 R 里 使 用 代码 实现 : 
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Vv 


setwd ("C:/RBook/") 
Whales <- read.table (file="TeethNitrogen.txt", 
header = TRUE) 
> N.Moby <- Whales$x15N [Whales$Tooth == "Moby"] 
Age.Moby <- Whales$Age [Whales$Tooth "Moby"] 
plot (x = Age.Moby, y = N.Moby, xlab = "Age", 
ylab = expression (paste (delta^{15}, "N"))) 
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图 7.12 氮 同 位 素 比例 与 年 龄 的 散 点 图 ,测量 的 是 一 个 昵称 叫 
Moby 鲸 的 牙齿 生长 层 。 请 注意 y 坐标 


paste 命令 使 85 和 N 结合 ,并 且 expression 函数 插入 SN。 


7.5.9 其 它 有 用 的 函数 


这 里 有 其 它 的 一 些 函 数 ,在 做 图 时 可 能 会 派 上 用 场 。 参 考 属性 的 帮助 
文件 ,也许 或 者 一 定 能 提供 帮助 。 
P.155 





函数 * 描述 
plot.new ”打开 一 个 新 的 图 形 框 ,与 frame() 相 同 
win,graph ”打开 额外 的 第 二 个 图 形 窗口 ,你 可 以 设置 屏幕 的 宽度 和 高 度 
windows 与 win. graph 类 似 但 是 有 更 多 选项 
saveplot 把 当前 图 形 存 为 ("wmf","emf","png","jpeg”,"jpg","bmp","ps", 
"eps" ,或 "pdf") 
locator 单 击 左 键 记录 光标 的 位 置 ; 单 击 右键 停止 
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续 表 





函数" 描 述 

range 返回 一 个 包含 所 有 参数 最 小 值 和 最 大 值 的 向 量 ,对 设置 x 和 y 的 界限 
有 用 

matplot 绘制 一 个 矩阵 的 列 对 应 另 一 个 矩阵 的 列 的 图 形 ; 对 于 多 个 Y 列 和 单个 
X 特 别 有 用 。 也 可 以 见 mnatlines 和 matpoints 分 别 为 了 增加 线 和 点 

Persp 在 x 一 y 平 面 上 用 透视 法 绘制 表面 图 

cut 把 数值 型 变量 转换 为 因子 

split 把 数值 向 量 或 者 数据 框 分 成 组 

“不 要 忘记 这 些 函 数 还 包含 括号 ! 


7.6 多 组 图 





在 前 面 的 图 形 里 ,我 们 使 用 plot 函数 绘制 了 两 个 连续 变量 的 散 点 图 ; 
下 面 示范 多 个 连续 型 变量 的 散 点 图 。 这 可 以 使 用 plot 函数 通过 绘制 1 对 
2,1 对 3,1 对 4 等 完成 ,并 接着 用 mfrow 和 mar 把 它们 都 绘制 在 单个 图 形 
里 。 然 而 ,R 函数 pairs 可 以 用 来 生成 多 面板 散 点 图 。 我 们 用 海底 数据 做 
一 示例 : 


> setwd("C:/RBook/") 

> Benthic <- read.table (file = "RIKZ2.txt", 
header = TRUE) 

> pairs (Benthic[, 2:9]) 


前 两 行 载 人 数据 ,pairs 函数 应 用 数据 框 Benthic 的 所 有 变量 ,除了 包 
含 标签 的 第 一 列 。 结 果 图 形 如 图 7. 13 所 示人 。 

我 们 已 经 把 物种 丰富 度 作为 第 一 个 变量 。 因 此 ,图 形 的 第 一 行 包 含 所 
有 变量 对 应 于 丰富 度 的 图 形 。 剩 余 的 图 形 显示 的 是 所 有 变量 对 应 于 其 它 
的 其 中 一 个 变量 的 图 形 。 从 统计 的 观点 来 看 ,我 们 想 建立 丰富 度 作为 其 它 
所 有 变量 的 函数 的 模型 ,因此 第 一 行 (或 者 列 ) 的 关系 是 很 清楚 的 ,然而 其 
它 面 板 ( 共 线性 ?都 根本 不 能 很 好 地 显示 清楚 的 模式 。 多 组 图 显示 了 一 些 
变量 之 间 清 楚 的 联系 ,例如 ,物种 丰富 度 与 NAP 之 间 ,谷物 大 小 与 排序 (这 
是 生物 意义 上 的 ,因为 排序 指 的 是 能 量 的 度量 ) 之 间 。 


四 ”使 用 命令 plot(Benthic[,2:9]) 可 以 给 出 相同 的 图 形 ,因为 Benthic 是 一 个 数据 框 ,plot 函数 
识别 它 并 调用 函数 plot. data. frame-。 
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图 7.13 海底 数据 变量 的 散 点 图 阵列 。 对 角 线 显示 的 是 变量 的 名 称 , 它 表示 对 角 线 
上 方 或 者 下 方面 板 的 z 轴 的 变量 名 称 ,同时 还 表示 对 角 线 左 方 或 者 右 方面 
板 的 y 轴 的 变量 名 称 


| 
7.6.1 面板 函数 


多 组 图 里 一 半 信 息 的 显示 是 多 余 的 ,因为 每 幅 图 都 出 现 两 次 ,一 次 出 
现在 对 角 线 上 方 一 次 出 现在 对 角 线 下 方 , 但 是 坐标 轴 是 颠倒 的 。 指 定 面板 
函数 应 用 到 所 有 的 面板 ,或 者 对 角 线 上 或 下 的 面板 是 可 行 的 (图 7. 14) 。R 
的 这 些 代码 可 以 在 pairs 帮助 文件 的 底部 找到 ,帮助 文件 可 以 通过 在 R 控 
制 台 窗 口 键 人 ? pairs 得 到 。 
> pairs (Benthic[, 2:9], diag.panel = panel.hist, 

upper.panel = panel.smooth, 

lower.panel = panel.cor) 
Error in pairs.default (Benthic[, 2:9], diag.panel = 
panel.hist, upper.panel = panel.smooth,: object 
"panel.cor" not found 

这 里 的 问题 是 R 不 能 识别 panel. cor 和 panel. hist 函数 。 这 些 具 体 
的 pairs 帮助 文件 底部 的 代码 片段 必须 复制 并 粘贴 到 R 控制 台 。 复 制 全 
部 的 函数 并 重新 运行 上 面 的 pairs 命令 。 对 于 具体 的 建议 , 见 本 书 的 在 线 
R 代码 ,可 以 在 www. highstat. com 找到 。panel. cor 和 panel. hist 代码 
比较 复杂 超出 了 本 书 的 范围 ,所 以 这 里 不 再 叙述 。 可 以 简单 地 复制 并 粘贴 
它 。 

如 果 你 对 在 多 组 图 里 使 用 皮尔 逊 相关 系数 感 兴趣 , 见 http://www. 
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图 7.14 扩展 的 多 组 图 在 对 角 线 使 用 的 是 直方 图 ,对 角 线 上 方 是 带 有 平滑 线 的 散 点 
图 ,对 角 线 下 方 是 尺寸 与 相关 关系 成 正比 的 皮尔 撑 相关 系数 。 代 码 来 自 于 
pairs 帮助 文件 


statmethods. net/graphs/scatterplot. html。 这 里 提供 了 一 个 例子 ,并 连接 

到 一 个 包 和 一 个 函数 ,它们 用 基于 皮尔 逊 相关 系数 的 值 给 整个 区 域 着 色 。 

条 一 练习 7. 10 节 的 习题 9。 在 这 个 习题 里 ,pairs 函数 被 用 于 植被 
数据 。 


7.7 协同 图 


7.7.1 单个 条 件 变量 的 协同 图 


pairs 函数 只 能 显示 双向 关系 。 我 们 下 面 讨论 的 绘图 工具 能 说 明 三 向 
甚至 四 向 关系 。 这 种 类 型 的 图 形 称 为 条 件 图 或 coplot, 特 别 适合 于 观察 当 
给 定 其 它 预 测 变量 时 ,反应 变量 如 何 根据 一 个 预测 变量 变化 。 图 7. 15 是 
使 用 RIKZ 数据 中 海滩 变量 .NAP 和 丰富 度 的 图 形 。 这 九 个 图 形 代表 海滩 
一 到 九 ,它们 列 在 顶部 并 显示 在 单独 的 面板 里 , 称 为 依赖 面板 。 从 最 底部 
一 行 开始 并 按照 从 左 到 右 的 顺序 ,第 一 行 描述 海滩 一 到 三 ,第 二 行 四 到 六 ， 
最 顶部 一 行 是 海滩 七 到 九 。 如 你 所 见 , 也 给 出 了 海滩 号 码 , 尽 管 没有 很 好 
地 排列 。 生 成 图 7. 15 的 R 代码 如 下 。 
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> setwd("C:/RBook/") 
> Benthic <- read.table (file = "RIKZ2.txt", 
header = TRUE) 
> coplot (Richness ~ NAP | as.factor (Beach), pch=19, 
data = Benthic) 


条 件 : as.factor(Beach) 
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图 7.15 海底 数据 的 coplot。 左 下 面板 是 对 于 海滩 1 绘制 的 丰富 度 对 于 
NAP 的 散 点 图 , 右 下 面板 是 海滩 3, 左 中 是 海滩 4, 右 上 是 海滩 9 


函数 coplot 与 函数 plot 使 用 的 符号 不 同 。 被 绘制 的 变量 放 在 用 波浪 
线 一 作为 分 隔 符 的 公式 符号 里 ,分 隔 符 两 端 分 别 是 因 变 量 和 自 变量 。 与 你 
使 用 的 plot 函数 相反 ,那里 第 一 个 变量 假定 为 x 变量 第 二 个 变量 为 y 变 
量 , 公 式 符号 里 经 常 使 用 > 一 z。 上 面 的 代码 指示 R 绘制 物种 丰富 度 (R) 对 
NAP 的 图 形 。 附 加 的 | as. factor (Beach) 生 成 面板 并 说 明 将 把 海滩 变量 
作为 条 件 生成 图 形 ,海滩 是 首次 强制 成 为 因子 。data 属性 表示 在 命令 中 把 
Benthic 数据 框 作为 变量 在 公式 中 使 用 。 

我 们 可 以 使 用 连续 型 变量 ,比如 粒 径 代替 分 类 变量 作为 条 件 变 量 。 下 
列 代码 生成 图 7. 16, 对 于 不 同 的 粒 径 值 绘制 丰富 度 对 NAP 的 散 点 图 。 


> coplot (Richness ~ NAP | grainsize, pch=19, 
data = Benthic) 


该 粒 径 值 被 分 为 点 的 数目 近似 相等 的 六 个 重 释 的 组 。 如 果 丰 富 度 和 
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图 7.16 使 用 连续 条 件 变量 的 协同 图 。 左 下 面板 是 粒 径 值 在 185 到 220 
之 间 的 条 件 下 丰富 度 对 NAP 的 散 点 图 。 右 上 面板 是 在 粒 径 取 较 
大 值 (>315) 的 条 件 下 丰富 度 对 NAP 的 散 点 图 。 重 要 的 问题 是 
丰富 度 和 NAP 的 关系 是 否 随 着 粒 径 梯度 改变 ,提示 NAP 与 粒 径 
之 间 有 交互 作用 


NAP 的 关系 随 着 粒 径 梯 度 改变 ,NAP 和 粒 径 之 间 存 在 的 交互 作用 会 给 出 
一 个 形象 的 暗示 , 它 可 能 需要 包含 这 个 交互 作用 项 ,比如 ,在 线性 回归 模型 
里 。 

coplot 函数 包含 许多 可 以 用 来 生成 令 人 兴奋 的 图 形 的 参数 。 见 它 的 
帮助 文件 ,可 以 通过 ? coplot 获得 。 最 有 用 的 是 panel, 它 在 每 个 面板 上 显 
示 函 数 的 执行 结果 。 缺 省 状态 下 coplot 使 用 points 函数 ,但 是 我 们 可 以 
容易 地 生成 我 们 自己 的 函数 并 把 它 应 用 到 每 个 面板 。 例 如 ,我 们 可 能 希望 
在 图 7. 15 的 每 个 面板 里 加 上 一 条 回归 线 (图 7.17)。 如 果 所 有 的 直线 是 平 
行 的 ,那么 没有 明显 的 证 据说 明海 滩 和 NAP 之 间 有 交互 作用 (也 就 是 说 ， 
丰富 度 一 NAP 的 关系 在 整个 海岸 线 上 是 一 样 的 ) 。 在 这 个 例子 中 , 线 是 不 
同 的 。 这 里 是 生成 图 7. 17 的 代码 : 
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图 7.17 RIKZ 数 据 中 物种 丰富 度 与 NAP 的 协同 图 ,其 
中 九 个 海滩 中 的 每 一 个 对 应 于 一 个 单独 的 面板 


> panel.1lm = function(x, y, .-..) { 
tmp <- lm(y ~ x, na.action = na.omit) 
abline (tmp) 
points(x, ys: ...)} 


> coplot (Richness ~ NAP | as.factor(Beach), pch = 19, 
panel = panel.1lm, data = Benthic) 


函数 panel. lm 定义 在 每 个 面板 里 如 何 显示 数据 。 最 后 的 三 个 点 表示 
该 函数 可 以 运行 其 它 参数 。 线 性 回归 函数 lm 用 来 把 数据 暂时 储存 在 变量 
tmp 中 ,这 个 分 析 中 任何 NAs 将 被 忽略 。 函 数 abline 绘制 线 , 函 数 points 
绘制 点 。 

另外 一 个 预先 定义 的 panel 函数 是 panel. smooth。 它 使 用 LOESS 平 
滑 项 添加 一 个 平滑 线 。 

正如 你 上 面 所 见 ,我 们 定义 了 自己 的 panel 函数 。 这 个 工具 对 于 使 用 
coplot 生成 用 户 定制 的 面板 函数 是 有 用 的 。 例 如 ,均值 和 置信 和 限 可 以 加 到 
每 个 面板 ,并 且 置 信 限 可 以 加 到 回归 线 上 。 

Coplot 也 是 研究 大 量 数据 中 每 个 组 合 变量 的 很 好 的 工具 。 
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他 练习 7.10 节 的 习题 10。 这 个 习题 利用 植被 数据 生成 一 个 协同 图 。 


7.7.2 两 个 条 件 变量 的 协同 图 


在 协同 图 里 可 以 包含 第 三 个 预测 变量 ,但 是 当 海 底数 据 包含 另外 一 个 
变量 时 不 会 产生 更 多 的 额外 信息 。 因 此 我 们 给 出 另外 一 个 例子 : 
Cruikshanks 等 (2006) 分 析 的 数据 的 子 集 。 可 利用 的 数据 在 文件 
SDI2003. tzt 里 。 最 初 的 研究 样本 是 2002 到 2003 年 间 爱 尔 兰 的 257 条 河 
流 。 上 有 目标 之 一 是 发 展 一 种 新 的 工具 识别 对 酸 敏 感 的 水 域 ,目前 是 通过 测量 
pH 值 。 使 用 pH 的 一 个 问题 是 它 在 集 水 处 是 一 个 极 值 变量 并 且 既 依赖 于 水 
流 条 件 也 依赖 于 地 下 地 质 状 况 。 作 为 一 种 替代 措施 , 钠 优势 度 指数 (Sodium 


。Dominance Index,SDD 被 提出 。 在 257 个 测量 地 点 ,有 192 个 没有 森林 覆盖 


65 个 被 森林 覆盖 。Zuur 等 (2009) 使 用 带 有 空间 相关 性 的 回归 模型 ,提出 pH 
作为 SDI, 森 林 覆 盖 的 或 者 没有 森林 覆盖 的 以 及 海拔 的 函数 。 

PH 和 SDI 之 间 的 关系 可 能 受到 海拔 梯度 与 森林 覆盖 的 影响 。 计 算 这 
个 需要 两 个 连续 (SDI 和 海拔 ) 和 一 个 分 类 (森林 覆盖 ) 的 解释 变量 的 三 向 交 
互 作 用 项 。 在 模型 里 包含 交互 作用 之 前 ,我 们 可 以 通过 协同 图 观看 它们 之 
间 的 关系 。 在 前 一 节 中 ,我 们 使 用 了 单个 条 件 变 量 的 协同 图 ,这 里 我 们 使 
用 两 个 条 件 变 量 。 我 们 对 海拔 值 进行 对 数 变换 。 协 同 图 如 图 7. 18 所 示 。 
R 代码 如 下 。 


> setwd("C:/RBook/") 
> pHEire <- read.table(file = "SDI2003.txt", 
header = TRUE) 
> pHEire$LOGAl1t <- 10g10 (pHEires$Altitude) 
> pHEire$fForested <- factor (pHEire$Forested) 
> coplot (pH ~ SDI | LOGAl1t * fForested, 
panel = panel.1lm, data = pHEire) 

在 前 一 节 中 ,我 们 使 用 过 相同 的 panel. lm 函数 。( 如 果 R 已 经 关闭 ， 
需要 把 它 复制 并 粘贴 到 R 控制 台 。) 因 为 变量 LOGAlt 是 海拔 的 对 数 变换 ， 
所 以 它 是 数值 型 , 它 被 分 成 一 列 条 件 区 间 ,并 且 , 对 于 每 一 个 区 间 ,绘制 pH 
对 于 SDI 的 图 形 。 另 外 ,数据 基于 森林 覆盖 因子 被 分 割 为 数组 。LOGAlt 区 
间 的 数目 和 位 置 可 以 通过 参数 given. values 控制 ; 见 coplot 的 帮助 文件 。 
如 果 没有 这 个 语句 ,数字 变量 被 分 为 6 个 重 倒 部 分 大 约 为 50 的 区 间 。 一 个 
简单 的 方法 是 使 用 number 参数 。 运 行 这 个 命令 : 
> coplot (pH ~ SDI | LOGAl1t * fForested, 

panel = panel.1lm, data = pHEire, number = 2) 
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图 7.18 爱尔兰 pH 数据 的 协同 图 。 面 板 展示 了 对 于 不 同 海拔 和 是 否 有 
森林 覆盖 的 pH 和 SDI 的 关系 。 如 果 线 的 斜率 不 同 , 你 需要 在 回 
归 模 型 里 加 上 一 个 交互 作用 项 。 如 果 一 个 面板 没有 点 ,不 能 包 
含 交互 作用 


比较 该 结果 (这 里 不 显示 ) 与 图 7. 18 的 协同 图 ;这 个 结果 有 较 少 的 面 
板 。 如 果 有 过 多 的 面板 造成 协同 图 过 于 稠密 时 可 以 使 用 number 参数 。 
7.7.3 增加 协同 图 的 修饰 

这 部 分 稍微 更 复杂 一 些 (因此 在 标题 上 有 星 号 ), 所 以 第 一 次 阅读 可 以 
忽略 。 

图 7.18 展示 了 pH 对 应 于 SDI, 海 拔 和 森林 覆盖 之 间 的 关系 (以 及 它 
们 之 间 的 交互 作用 )。 为 了 示范 可 以 做 什么 ,我 们 生成 了 与 图 7. 18 相同 的 
协同 图 ,但 是 依据 不 同 的 温度 ,点 的 颜色 不 同 。 温 度 在 平均 值 以 上 的 用 浅 
灰色 点 表示 ,温度 在 平均 值 以 下 的 用 黑 点 表示 (显然 ,红色 和 蓝 色 点 可 能 更 
好 )。 在 完成 这 些 之 前 ,我 们 需要 使 用 下 面 的 代码 生成 一 个 包含 灰色 的 新 
变量 。 

> pHEire$Temp2 <- cut (pHEire$Temperature, breaks = 2) 


> pHEire$Temp2.num <- as.numeric (pHEire$Temp2) 


因为 我 们 使 用 了 breaks = 2, 所 以 cut 函数 把 温度 数据 分 为 两 部 分 。 
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输出 结果 时 我 们 遇 到 一 个 问题 ,Temp2, 是 一 个 因子 ,可 以 从 以 下 输入 看 到 : 


P163 > cut (pHEire$Temperature, breaks = 2) 


[1] (1.89,7.4] (1.89,7.4] (1.89,7.4] (1.89,7.4] 
[5] (1.89,7.4] (1.89,7.4] (1.89,7.4] (1.89,7.4] 
[9] (1.89,7.4] (1.89,7.4] (1.89,7.4] (1.89,7.4] 
[13] (1.89,7.4] (1.89,7.4] (7.4,12.9] (1.89,7.4] 


[197] (7.4,12.9] (7.4,12.9] (7.4,12.9] (7.4,12.9] 
[201] (7.4,12.9] (7.4,12.9] (7.4,12.9] (7.4,12.9] 
[205] (7.4,12.9] 
Levels: (1.89,7.4] (7.4,12.9] 

每 个 温度 值 被 分 配 到 1. 89 一 7. 4C (在 平均 值 之 下 ) 或 者 7. 4 一 12. 9'C 
(在 平均 值 之 上 ) 的 类 别 中 。 因 为 因子 不 能 作为 色彩 或 者 灰 度 值 ,因此 我 们 
使 用 as. numeric 函数 把 Temp2 转换 为 一 个 数 。 所 以 pHEire $ Temp2. num 
是 一 个 具有 值 为 1 和 2 的 向 量 。 我 们 可 以 在 Excel 里 完成 该 步 ,但 是 cut 
函数 更 有 效 一 些 。 现 在 我 们 准备 生成 图 7. 19 的 coplot, 使 用 下 面 的 R 代 
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图 7.19 pH 数据 的 coplot, 使 用 四 个 预测 变量 :SDIL, 森 林 覆 盖 ,海拔 与 温 
度 。 后 者 用 具有 两 种 色调 的 灰色 的 符号 显示 。 浅 灰色 的 点 对 应 
于 平均 温度 之 上 的 值 , 暗 灰色 的 点 对 应 于 平均 温度 之 下 的 值 
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> coplot (pH ~ SDI | LOGAlt * fForested, 


Panel = panel.1lm, data = PHEirev 


number = 3, cex 


= 1.5, pch = 19, 


col = gray (pHEire$Temp2.num / 3)) 


可 以 看 出 , 当 Forested 二 2(2 表示 没有 森林 覆盖 ,1 表示 森林 覆盖 ), 具 
有 较 低 的 SDI 值 以 及 温度 在 平均 值 以 上 时 可 以 得 到 高 的 pH 值 。 


7.8 组合 不 同类 型 的 图 " 


这 里 我 们 接触 R 更 高 级 的 图 形 功能 。 在 R 中 可 以 使 用 多 种 图 形 系统 。 
我 们 展示 的 所 有 图 形 都 是 通过 底层 包 graphics 实现 的 。 名 称 为 grid 的 R 
包 提 供 更 多 高 级 功能 。 它 可 以 在 单个 图 形 里 组 合 不 同 的 图 。 我 们 已 经 使 
用 mfrow 命令 在 一 个 屏幕 上 绘制 多 个 图 形 。 这 里 我 们 使 用 layout 生成 复 
7. 20 展示 了 物种 丰富 度 对 NAP 的 散 点 图 ,同时 也 包括 





杂 的 图 形 排列 。 
每 个 变量 的 盒 形 图 。 








5 
8 D 
oo 
Ee | 
多 o 
里 
© 0 
吉 J oo 
训 有 村 
区 oo oo 
o 0o 
oOD oo 
m1 oo “o 
O oo 
000o0% ”oo 
oo oo 
局 十 0° 0° 





i 
-1.0 


图 7.20 海底 数据 的 散 点 图 和 盒 形 图 的 组 合 
为 了 生成 这 个 图 形 ,我 们 首先 需要 定义 合并 图 形 的 数量 .它们 的 位 置 


以 及 大 小 。 在 这 里 ,我 们 想 安 排 一 个 2 乘 2 的 窗口 , 散 点 图 在 左下 面板 ,一 
个 盒 形 图 在 左上 面板 , 另 一 个 盒 形 图 在 右 下 面板 。 为 了 实现 这 点 我 们 定义 


和 
0.0 0.5 1.0 1.5 2.0 
NAP 


一 个 矩阵 , 称 为 MYLayout, 它 具有 下 列 值 。 
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> MyLayOut <- matrix(c(2, 0, 1, 3), nrow = 2, ncol=2, 
byrow = TRUE) 
> MyLayOut 
[1,1] [,2] 
[1,] 2 0 
[2,] 1 


P.165 第 2 章 里 介绍 了 matrix 命令 。 它 看 起 来 复杂 ,但 是 能 比较 容易 地 生成 
-个 矩阵 ,第 一 行 元 素 为 2 和 0, 第 二 行 元 素 为 1 和 3。 我 们 在 函数 layout 
里 使 用 这 个 矩阵 , 接 下 来 是 三 个 绘图 命令 。 第 一 个 图 显示 在 左下 角 ( 由 矩 
阵 里 的 1 指定 ) ,第 二 个 图 在 左上 角 ( 由 2 指定 ), 第 三 个 图 在 右 下 角 。 因 为 
在 MYLayOut 的 右上 区 域 是 0, 所 以 在 该 区 域 没有 绘制 图 形 。 
下 一 部 分 的 代码 包含 
> nf <- layout (mat = MyLayOut, widths = c(3, 1), 
heights = c(1, 3), respect = TRUE) 
widths 选项 规定 了 列 的 相对 宽度 。 在 这 里 ,第 一 列 包 含 NAP 的 散 点 
图 和 盒 形 图 ,是 3, 第 二 列 ,包含 丰富 度 的 盒 形 图 ,宽度 是 1。Heights 列 指 
定 行 高 。respect = TRUE 确保 乖 直 方向 上 的 一 个 单位 与 水 平方 向 上 的 一 个 
单位 相等 。layout 函数 的 这 些 设置 效果 可 以 通过 下 面 的 命令 形象 地 看 到 。 
> layout. show(nf) 




















图 7.21 图 形 窗口 的 布局 。 第 一 个 绘图 命令 的 结果 
显示 在 面板 1( 左 下 ), 第 二 个 是 面板 2, 第 
三 个 是 面板 3 
剩余 的 一 切 是 为 了 生成 这 三 个 图 形 。 我 们 必须 确保 面板 2 的 盒 形 图 
的 范围 与 面板 1 的 水 平 轴 的 范围 一 致 ,同样 使 面板 3 的 范围 与 面板 1 的 重 
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直 轴 范围 一 致 。 我 们 也 需要 避免 在 图 形 的 周围 有 过 多 的 空白 ,这 意味 着 需 P.166 
要 对 每 幅 图 的 mar 值 进行 多 次 试验 以 避免 错误 。 我 们 给 出 了 以 下 代码 。 


> xrange <- cfminfBenthic5SNaP) ，max(BenthicSNAP) ) 
> yrange <- cf(minfBenthic5Richness)， 
max(Benthic5Richness)) 
> #First graph 
> par(mar = c(4, 4, 2, 2)) 
> plot (Benthic$NAP, Benthic$Richness, xlim = xrange, 
ylim = yrange, xlab = "NAP", ylab = "Richness") 
> #Second graph 
> par(mar = c(0, 3, 1, 1)) 
> boxplot (Benthic$NAP, horizontal = TRUE, axes 
frame.plot = FALSE, ylim = xrange, space 
> #Third graph 
> par(mar = c(3, 0, 1, 1)) 
> boxplot (Benthic$Richness, axes = FALSE, 
ylim = yrange, space = 0, horiz = TRUE) 


很 多 选项 的 含义 是 不 言 自明 的 ,改变 mar 的 值 并 观察 会 发 生 什 么 。 另 外 
一 个 可 以 用 来 实现 类 似 目的 的 函数 是 split. screen; 详 见 它 的 帮助 文件 。 








FALSE, 
0) 


ll 


7.9 我 们 学 习 了 哪些 R 函数 ? 


表 7.1 列 出 了 本 章 中 我 们 介绍 的 R 函数 。 








表 7.1 本 章 介绍 的 R 函数 P.187 

函 数 功 能 示 例 
pie 生成 一 个 饼 图 pie(x) 
pie3D 生成 一 个 三 维 饼 图 pie3D(x) 
par 设置 图 形 参 数 par(...) 
barplot 生成 一 个 条 形 图 barplot(x) 
arrows 绘制 箭头 arrowSs(xl,y1,x2,Y2) 
box 在 图 形 周围 绘制 一 个 盒子 box() 

boxplot(y) 

boxplot 生成 一 个 盒 形 图 Buie 
text 在 图 形 上 添加 文本 text(x,y,"hello") 


points 在 一 个 存在 的 图 形 上 添加 点 points(x,y) 
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续 表 7.1 
函 数 功 能 示 例 
legend 添加 图 例 legend("topleft", MyText, lty = c(1， 
2,3)) 
title 添加 标题 title(MyText) 
expression ”人 允许 给 定 特殊 字符 ylab = expression (paste (deltao 
{15},"N")) 
pairs 生成 多 面板 散 点 图 Pairs(X) 
coplot 生成 多 面板 散 点 图 Coplot(y~x|z) 
layout 在 同一 个 窗口 layout(mat ,widths, heights) 
允许 多 个 图 形 plot(x) 
plot(y) 
7.10 习题 


习题 1. 使 用 禽 流 感 数据 练习 pie 函数 的 应 用 。、 


在 7.1 节 ,我 们 使 用 了 每 年 全 部 的 禽 流感 病例 。 生 成 一 个 显示 每 个 国 
家 总 数 的 饼 图 。 添 加 易 读 的 标签 。 文 件 BirdFludeaths. tzt 包含 该 疾病 的 
死亡 数据 。 生 成 显示 每 年 死亡 总 数 与 每 个 国家 死亡 数 的 饼 图 。 
习题 2. 使 用 植被 数据 集 练习 barchart 和 stripchart 函数 的 应 用 。 

在 4.1 节 ,我 们 计算 了 8 个 截面 的 物种 丰富 度 以 及 它 的 均值 和 标准 差 。 
生成 表示 8 个 均值 的 条 形 图 ,同时 加 上 表示 标准 误 的 垂直 线 。 

生成 一 个 图 形 , 其 中 均值 绘制 成 黑色 的 点 ,标准 误 绘制 成 围绕 均值 的 
直线 ,观测 值 用 空心 点 表示 。 
习题 3. 使 用 植被 数据 集 练习 boxplot 函数 的 应 用 。 

使 用 习题 2 的 植被 数据 ,生成 展示 丰富 度 值 的 盒 形 图 。 
习题 4. 使 用 寄生 虫 数 据 集 练习 boxplot 函数 的 应 用 。 

在 6.3.3 节 ,使 用 了 鲤鱼 寄生 虫 数据 集 。 生 成 基于 地 区 性别、 进程 或 
者 年 份 为 条 件 的 寄生 虫 数目 (强度 ) 的 盒 形 图 。 尝 试 进行 组 合 以 检测 交互 
作用 。 
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习题 5. 使 用 猫 头 座 数据 练习 dotchart 函数 的 应 用 。 


在 7.3 节 ,我 们 使 用 了 猫头鹰 数据 。 生 成 雏 鸟 协商 行为 和 到 达 时 间 的 
两 个 克 里 夫 兰 点 图 。 生 成 一 个 显示 每 夜 到 达 时 间 的 克 里 夫 兰 点 图 。 在 同 
一 个 夜晚 锥 鸟 和 食物 处 理 变 量 显示 哪 一 个 观测 值 被 使 用 。 也 可 以 参考 6. 6 
节 的 习题 2。 


习题 6. 使 用 寄生 虫 数据 练习 dotchart 函数 的 应 用 。 


对 于 习题 4 使 用 的 寄生 虫 数据 ,利用 寄生 虫 数量 (强度 ) 以 及 根据 地 
区 、 性 别 . 进 程 或 者 年 份 分 组 的 观测 值 生成 一 个 克 里 夫 兰 点 图 。 生 成 一 个 
克 里 夫 兰 点 图 以 显示 深度 ,并 对 观测 值 根 据 广泛 程度 分 组 。 


习题 7. 使 用 猫头鹰 数据 练习 plot 和 axis 函数 的 应 用 。 


对 雏 鸟 协商 行为 数据 应 用 对 数 变换 (以 10 为 底数 ), 加 上 1 以 避免 对 0 
取 对 数 的 问题 。 绘 制 变换 后 的 雏 鸟 协商 行为 数据 对 到 达 时 间 的 图 形 。 请 
注意 到 达 时 间 的 编码 为 23. 00,24. 00,25. 00,26. 00 等 。 使 用 01. 00,02. 00 
等 替换 25,26 等 作为 到 达 时间 的 标签 。 

生成 相同 的 图 形 , 但 是 使 用 反 向 变换 的 值 作为 垂直 轴 的 标签 。 这 意味 
着 使 用 雏 鸟 协商 行为 数据 的 对 数 变换 ,但 是 如 果 对 数 变换 的 值 为 0, 则 标签 
为 1, 如 果 对 数 变换 的 值 是 1, 则 标签 是 10 等 。 


习题 8. 使 用 猫 头 度数 据 练习 1egend 函数 的 应 用 。 


对 习题 7 生成 的 图 形 添加 一 个 平滑 线 ( 见 第 5 章 ) 以 形象 化 地 区 分 雄性 
数据 和 肉 性 数据 的 样品 。 提 取 梭 性 数据 ,以 平滑 线 拟 合 , 在 图 形 上 添加 该 
线 。 对 肉 性 数据 进行 相同 的 操作 。 使 用 图 例 区 分 不 同 的 曲线 。 对 食物 处 
理 和 夜晚 进行 相同 的 操作 。 


习题 9. 使 用 植被 数据 练习 pairs 函数 的 应 用 。 


对 植被 数据 的 所 有 气候 变量 生成 多 组 图 。 在 下 部 的 面板 上 添加 相关 
系数 。 图 形 告诉 了 你 什么 ? 


习题 10. 使 用 植被 数据 练习 coplot 函数 的 应 用 。 
绘制 在 截面 条 件 下 物种 丰富 度 与 你 选择 的 一 个 协 变量 的 图 形 。 
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R 中 提供 了 很 多 可 以 对 各 种 特殊 类 型 数据 进行 绘图 的 函数 ,这 些 函 数 
中 的 大 部 分 在 当 R 启动 时 默认 载 人 的 程序 包 中 并 不 可 用 。 有 些 函 数 用 起 
来 很 简单 ,比如 plot 函数 ,有 些 函 数 用 起 来 比较 麻烦 。 格 包 可 以 使 R 调动 
全 部 的 潜能 来 对 各 种 高 维 数据 进行 绘图 ,我 们 已 经 使 用 过 了 一 种 格 图 , 即 
多 面板 散 点 图 ,在 1. 4. 1 节 中 绘制 了 深海 发 光 生 物体 密度 对 深度 的 图 像 。 

格 包 是 由 Deepayan Sarkar 编写 的 ,他 最 近 出 版 了 一 本 非常 不 错 的 书 ， 
我 们 在 这 里 将 其 强烈 推荐 给 读者 (Sarkar,2008)。 这 个 程序 包 实 现 了 20 世 
纪 90 年 代 初 期 在 贝尔 实验 室 发 展 起 来 的 特 雷 利 斯 图 形 框架 (Trellis 
Graphics framework) 。 

在 第 7 章 中 ,我 们 提出 了 coplot 函数 , 它 可 以 将 数据 子 集 的 图 像 显示 
在 一 个 单独 的 面板 上 ,这 在 当 数据 具有 分 组 结构 时 是 很 有 用 的 。 格 包 是 这 
种 特点 的 进一步 发 展 ,但 它 需 要 在 编程 中 付出 更 多 的 努力 。 好 消息 是 ,我 
们 迄今 已 掌握 了 足够 熟练 的 技巧 去 处 理 函数 而 不 会 有 太 大 困难 。 


8.1 高 级 格 胃 数 (Lattice Function) 


格 用 户 界面 主要 由 一 系列 被 称 之 为 “高 级 "函数 的 函数 组 成 ,其 中 每 个 
都 具有 绘制 特殊 类 型 统计 图 像 的 功能 ( 表 8. 1) 。 幸 运 的 是 ,我 们 不 需要 分 
别 来 学 习 它 们 ,因为 对 于 不 同类 型 的 多 面板 条 件 和 对 于 大 量 普通 参数 的 响 
应 ,这 些 函 数 都 是 使 用 相似 的 公式 界面 来 设计 的 ,因此 ,一 旦 我 们 掌握 了 一 
个 函数 ,学 习 其 它 的 函数 就 很 简单 了 。 
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绘图 过 程 由 一 个 默认 的 面板 函数 完成 ,这 个 面板 函数 所 入 在 可 以 用 于 
任何 面板 上 的 每 一 个 普通 函数 中 。 大 多 数 情 况 下 ,用 户 都 不 会 注意 到 面板 
函数 是 根据 所 调用 函数 中 的 给 定 参 数 做 出 反应 的 。 默 认 面 板 函 数 名字 的 Pp.170 
意思 一 般 都 是 不 言 自明 的 ,例如 ,高 级 函数 histogran 的 默认 面板 函数 是 
panel. histogram, densityplot 的 默认 面板 函数 是 panel. densityplot， 
xyplot 的 是 panel. xyplot, 等 等 。 这 些 预 先 定义 的 函数 都 是 可 以 直接 使 用 
或 者 修改 的 ,我 们 将 在 8.6 节 更 详细 地 讨论 面板 函数 。 

表 8.1 列 出 了 一 些 在 格 中 可 以 使 用 的 高 级 函数 。 


表 8.1 格 包 中 的 高 级 函数 





函 数 默认 显示 
histogram() 直方 图 
densityplot() 核 密 度 图 
qqnath() 理论 分 位 数 图 
qq() 双 样 本 分 位 数 图 
stripplot() 带 形 图 (相当 于 一 维 散 点 图 ) 
bwplot() 相当 于 箱 线 图 
dotplot() 克 里 夫 兰 点 图 
barchart() 条 形 图 
xyplot() 散 点 图 
splom() 散 点 图 阵列 
contourplot() 表面 等 高 线 图 
levelplot() 表面 伪 色 彩 图 
wireframe() 三 维 表面 透视 图 
cloud() 三 维 散 点 图 
parallel() 平行 坐标 图 


| 完成 8. 11 节 的 习题 1。 这 里 引入 了 格 绘图 ,并 且 对 这 个 包 的 功 
能 进行 了 一 个 总 结 。 


8.2 多 面板 散 点 图 :xyplot 


在 第 4 章 的 习题 中 我 们 曾 使 用 了 沿 荷兰 海岸 线 上 30 个 站 点 历时 15 年 
所 测量 的 一 组 温度 数据 ,采样 的 频率 根据 季节 不 同 每 个 月 进行 0 一 4 次。 
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除了 温度 之 外 ,也 记录 了 每 个 站 点 的 盐 度 数据 ,这 里 使 用 这 些 测量 值 。 这 
些 数据 (存在 于 文件 RIKZENV. txt) 将 被 传递 给 xyplot 函数 ,进而 生成 一 
个 多 面板 散 点 图 。 以 下 代码 将 分 别 实现 将 数据 载 人 R, 生 成 一 个 代表 时 间 
(天 数 ) 的 新 变量 ,MyTinme, 绘 制 一 个 多 面板 散 点 图 。 

> setwd{"C:/RBook") 

> Env <- read.table (file ="RIKZENV.txt", header = TRUE) 
>Env$MyTime <- Env$Year + Env$dDay3 / 365 

>1library (lattice) 


>xyplot (SAL ~ MyTime | factor{Station), type = "1", 
strip = function(bg, ...) 
strip.default (bg = ‘white’, ...), 
col.line = 1, data = Env) 

xyplot 函数 具有 所 有 高 级 格 函数 的 一 般 特 性 ,其 中 最 显著 的 特点 就 是 
公式 的 使 用 ,公式 中 有 一 个 垂直 线 (也 称 为 管 符号 (pipe symbol)) ,和 data 
参数 。 格 使 用 了 一 种 R 对 于 统计 模型 也 会 使 用 的 公式 化 结构 ,上 述 波浪 线 
(一 ) 连 接 的 变量 分 别 表示 y 轴 和 z 轴 , 垂 直线 后 条 件 变量 (此 处 为 
Station) 的 作用 是 生成 多 面板 。 

当 没 有 条 件 变量 的 时 候 ,xyplot 函数 的 结果 将 和 普通 plot 函数 的 结 
果 是 类 似 的 ,数据 的 图 形 将 被 绘制 在 单个 面板 中 。 条 件 变量 通常 都 是 一 个 
因子 (注意 到 我 们 输入 了 :factor(Station)), 但 是 它 也 可 以 是 一 个 连续 的 
变量 。 当 使 用 连续 的 变量 作为 条 件 变量 时 , 它 的 每 一 个 值 在 默认 情况 下 都 
被 理解 为 一 个 离散 值 ,然而 ,此 类 变量 通常 具有 很 多 的 值 ,此 时 我 们 就 需要 
将 其 分 割 为 一 些 区 间 。 函 数 shingle 和 equal. count 可 以 完成 这 个 任务 ， 
见 它们 的 帮助 文件 。 

图 8. 1 绘制 了 所 有 站 点 数据 的 图 形 , 这 个 图 形 包括 五 行 ,每 行 六 个 面 
板 。 每 个 面板 上 面 的 横 条 , 称 为 带 , 给 出 了 每 个 站 点 的 名 称 。 

这 些 代 码 并 不 难 理解 。 根 据 站 点 (|) 的 不 同 ,xyplot 函数 使 用 公式 绘 
制 了 盐 度 对 (一 ) 时 间 的 图 形 。 我 们 增加 了 两 个 xyplot 参数 :strip, 对 每 一 
个 带 使 用 白色 的 背景 ;col. line = 1 ,对 图 形 使 用 黑色 的 线条 (第 5 章 已 讲 过 
1 代表 黑色 )。 另 外 还 有 两 个 我 们 很 熟悉 的 属性 ,type 和 data。 但 是 ,type 
属性 在 xyplot 函数 中 有 比 普通 plot 函数 更 多 的 选项 ,例如 ,type ="r" 可 
以 增加 一 条 回归 线 ,type = " smooth "增加 一 个 LOESS 拟 合 ,type = "g" 增 
加 一 个 参考 网 格 ,type = "1 "将 点 用 线 连接 起 来 ,type = "a" 将 每 个 面板 中 
每 组 的 均值 用 线 连接 起 来 。 

参数 strip 需要 包含 一 个 逻辑 值 (TRUE 或 者 FALSE) ,来 说 明 是 否 绘制 
这 个 带 状 ,或 者 给 出 一 个 带 有 输入 的 函数 (此 处 是 strip. default)。 为 了 
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MyTime 
图 8.1 和 荷兰 海岸 线 上 30 个 站 点 历时 15 年 的 盐 度 (SAL) 多 面板 图 。 注意 
不 同 站 点 的 数据 范围 和 均值 是 不 同 的 


查看 这 些 选项 的 功能 ,运行 如 下 的 基本 xyplot 命令 。 
> xyplot (SAL ~ MyTime |factor(Station), data = Env) 


将 这 个 结果 (这 里 没有 列 出 ) 和 如 下 的 进行 比较 : 
> xyplot (SAL ~ MyTime | factor(Station), type = "1", 
strip = TRUE, col.line = 1, data = Env) 


> xyplot (SAL ~ MyTime | factor(Station), type = "1", 
strip = FALSE, col.line = 1, data = Env) 


从 图 8.1 中 可 以 看 到 ,有 些 站 点 的 盐 度 值 比较 低 ,北海 (North Sea) 附 
近 水 中 的 盐 度 大 约 是 32, 这 可 能 是 由 于 一 些 河流 或 者 是 其 它 的 新 鲜 水 源流 
人 其 中 的 原因 。 不 同 站 点 的 盐 度 值 是 不 同 的 , 低 盐 度 值 站 点 的 数据 随 着 时 
间 表 现 出 了 更 大 的 波动 性 。 另 外 一 个 需要 注意 的 是 一 些 站 点 的 图 形 是 比 
较 类 似 的 ,这 可 能 是 因为 这 些 站 点 离 的 比较 近 的 原因 。 从 此 图 中 很 难看 出 
这 些 数据 是 否 具有 随 季 节 变 化 的 特性 。 为 了 研究 这 一 点 ,我 们 可 以 使 用 格 
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函数 bwplot 来 绘制 箱 线 图 。 


完成 8. 11 节 的 习题 2。 这 是 一 个 对 温度 数据 集 使 用 xyplot 函 
数 的 习题 。 


8.3 多 面板 盒 形 图 :bwplot 


图 8. 2 给 出 了 盐 度数 据 的 箱 线 图 ,也 叫 盒 形 图。 第 7 章 中 我 们 学 习 了 
boxplot 函数 ,在 此 处 与 之 对 应 的 就 是 bwplot 函数 , 它 所 使 用 公式 的 形式 
和 xyplot 函数 是 类 似 的 。 这 一 次 ,我 们 绘制 Sal inity 对 Month(1 一 12) 的 
图 形 ,条 件 变 量 从 Station 换 为 area, 我 们 这 样 做 有 两 个 原因 :第 一 ,一 些 
站 点 由 于 位 于 同样 的 区 域 ,而 使 图 像 具 有 了 类 似 的 结构 ;第 二 ,每 个 站 点 每 
月 的 数据 对 于 绘制 一 个 有 意义 的 箱 线 图 并 不 足够 ,所 以 我 们 对 站 点 和 年 份 
的 数据 进行 了 结合 。 因 此 ,每 个 面板 中 分 别 显 示 的 是 10 个 区 域 中 不 同月 
份 不 同 区域 盐 度数 据 的 中 位 数 和 范围 ,具体 的 代码 如 下 : 
> setwd("C:/RBook") 
> Env <- read.table (file ="RIKZENV.txt", header = TRUE) 
> library (lattice) 
> bwplot (SAL ~ factor(Month) | Area, 

strip = strip.custom(bg = ‘white’), 
cex = 0.5, layout = c(2, 5), 
data = Env, xlab = "Month", ylab = "Salinity", 
par.settings = list( 
box.rectangle = list(col = 1), 
box.umbrella = list(col = 1), 
plot.symbol = list(cex = .5, col = 1))) 


这 是 一 个 非常 广泛 的 代码 ,但 是 如 果 我 们 对 用 黑色 和 白色 绘图 (默认 
使 用 的 颜色 ) 没 有 其 它 的 要 求 的 话 , 代 码 是 可 以 化 简 的 。 假 如 不 考虑 使 用 
颜色 和 标签 选项 (此 处 不 列 出 结果 ) 的 话 : 
> bwplot (SAL ~ factor(Month) | Area, layout = c(2, 5), 

data = Env) 

然而 ,这 个 图 并 不 具有 吸引 力 ,我 们 需要 继续 使 用 更 多 的 代码 。par. 
settings 之 后 的 list 用 来 设置 盒 形 框 的 颜色 ,线条 (也 叫 伞 形 物 ), 开 放 式 
圆圈 (代表 中 位 数 ) 的 尺寸 和 颜色 。 我 们 同样 将 带 状 的 背景 色 设置 为 白色 ， 


-用 参数 layout 来 设置 面板 的 布局 ,具体 的 做 法 通过 输入 一 个 数值 向 量 来 指 


定 和 矩形 网 格 的 行 数 和 列 数 。 
图 8. 2 所 示 的 不 同 区域 数 据 的 变化 是 不 一 样 的 ,而 且 它 们 还 表现 出 了 
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循环 的 结构 特点 ,这 可 能 是 一 种 季节 效应 (比如 河流 的 径流 ) ,但 是 每 个 区 
域 的 这 种 特点 并 不 完全 一 致 
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图 8.2 不 同 区 域 盐 度 (Salinity) 对 时 间 (Month) 的 多 面板 图 形 。 不 同 区 
域 盐 度 的 变化 是 不 一 样 的 


| si 通过 对 温度 的 数据 使 用 bwplot 函数 来 完成 8. 11 节 的 习题 3。 


8.4 多 面板 克 里 夫 兰 点 图 :dotplot 


第 7 章 介绍 了 克 里 夫 兰 点 图 , 称 为 dotchart, 在 格 中 称 为 dotplot。 由 
于 盐 度数 据 集中 包含 了 过 多 的 数据 点 ,所 以 我 们 将 图 形 限制 在 某 一 单独 区 
域 的 站 点 中 。 以 下 的 代码 绘制 了 一 个 多 面板 点 图 ,结果 如 图 8. 3 所 示 。 


> setwd{"C:/RBook") 
> Env <- read.table (file ="RIKZENV.txt", header = TRUE) 
> library (lattice) P.175 
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> dotplot (factor (Month) ~ SAL | Station, 
subset = Area=="0S", jitter.x = TRUE, col = 1, 
data = Env strip = strip.custom(bg = ‘white’), 
cex = 0.5, ylab = "Month", xlab = "Salinity") 

这 个 代码 与 函数 xyplot 和 bwplot 的 代码 是 类 似 的 ,我 们 为 了 把 
salinity 放 在 模 轴 ,month 放 在 纵 轴 (与 dotchart 函数 的 阐述 保持 一 致 , 见 
第 7 章 ), 从 而 调换 了 salinity 和 month 在 公式 中 的 顺序 。 

这 个 代码 中 还 有 两 个 附加 参数 , subset 和 jitter. x。subset 选项 的 
作用 是 选 定 全 部 数据 的 一 个 子 集 , 这 里 OS 代表 区 域 Oosterschelde， 
jitter.x = TRUE 的 作用 是 当 多 个 观察 值 在 同一 月 份 具有 相同 值 的 时 候 对 
水 平方 向 增加 少许 的 随机 变化 。 

图 8.3 显示 有 些 数据 点 明显 地 处 于 正常 范围 以 外 ,这 些 被 称 为 潜在 的 
异常 值 。 所 以 ,在 做 统计 分 析 之 前 最 好 能 移 除 这 些 数据 。 但 是 ,不 要 轻率 
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图 8.3 OS 地 区 四 个 站 点 盐 度数 据 的 多 面板 点 图 。 每 个 数据 都 被 刻画 为 一 个 圆 点 ,y 
轴 代表 月 份 ,z 轴 代 表 盐 度 。 注 意 站 点 ZIJP 和 LODS 中 有 两 个 异常 值 
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地 做 出 这 种 选择 ,数据 移 除 者 必须 对 数据 移 除 的 正确 性 负责 ,也 许 这 两 个 
比较 低 的 盐 度 值 是 由 于 过 多 的 降雨 导致 的 。 如 果 研究 的 目的 是 确定 盐 度 
与 降水 量 之 间 的 关系 ,那么 我 们 最 好 保留 这 些 数据 点 。 


多 一 通过 对 温度 的 数据 使 用 多 面板 dotplot 函数 来 完成 8. 11 节 的 
习题 4。 


8.5 多 面板 直方 图 :histogram 


格 包 中 的 histogram 函数 可 以 用 来 绘制 多 面板 直方 图 ,图 8. 4 就 是 由 


如 下 的 代码 绘制 的 。 
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图 8.4 OS 地 区 四 个 站 点 盐 度 数据 的 直方 图 


Setwd("C:/RBook"™) 
Env <- read.table (file ="RIKZENV.txt", header = TRUE) 
library (lattice) 
histogram( ~ SAL | Station, data = Env, 
subset = (Area == "OS"), layout = c(l, 4), 
nint = 30, xlab = "Salinity"” strip = FALSE, 
strip.left = TRUE, ylab = "Frequencies") 


MY YY 
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注意 这 个 公式 和 前 面 的 是 有 一 些 区 别 的 (这 个 直方 图 的 绘制 只 需要 盐 
度数 据 )。 这 里 使 用 subset 命令 呈现 了 其 中 四 个 站 点 的 数据 ,为 了 使 面板 
垂直 排列 ,改变 了 layout 的 参数 ,并 且 还 使 用 nint 参数 将 条 形 ( 也 叫 箱 形 ) 
的 数目 增加 到 30 个 ,因为 默认 的 这 个 数目 是 很 少 的 。 另 外 ,我 们 通过 设置 
strip = FALSE 和 strip. left = TRUE 将 带 状 移 到 了 面板 的 侧 边 。 从 图 中 可 
以 看 到 ,OS 地 区 只 有 一 个 站 点 的 盐 度 比较 低 , 就 是 ZIJP。 

当 需 要 绘制 密度 图 的 时 候 , 只 需要 将 函数 名 从 histogram 改 为 
densityplot 就 可 以 了 。 如 果 没 有 移 除 条 形 数目 的 参数 ,R 将 会 忽略 它 。 
另外 一 个 可 以 绘制 数据 分 布 的 函数 是 qqmath, 它 可 以 绘制 QQ 图 ,也 就 是 
分 位 数 -分 位 数 图 ,其 作用 是 将 一 组 连续 数据 的 分 布 和 一 种 理论 分 布 (通常 
是 正 态 分 布 ) 进 行 比 较 。 


8.6 面板 隔 数 


第 7 章 中 通过 pairs 和 coplot 命令 介绍 了 面板 函数 ,这 都 是 一 些 可 以 
把 多 个 面板 放 在 一 个 图 形 中 的 普通 函数 ( 见 第 6 章 ) 。 

格 中 的 面板 函数 在 每 个 高 级 格 函 数 中 是 自动 执行 的 。 就 像 8. 1 节 所 
讲 的 那样 ,每 一 个 默认 的 面板 函数 都 包含 了 它 的 “ 母 " 函 数 的 名 称 , 例 如 ， 
panel. xyplot, panel. bwplot, panel. histogram 等 等 。 因 此 , 当 你 键 人 
xyplot(y ~ x|z) 的 时 候 ,R 执行 的 是 :xyplot(y ~ x|z,panel = panel. 
xyplot)。 参 数 panel 的 作用 是 联系 具体 的 面板 函数 和 绘图 规则 ,因为 我 们 
可 以 这 样 来 理解 一 个 面板 函数 : 

xyplot (y ~ x | z, panel = function (...) { 
panel.xyplot (...)}) 

这 里 符号 “... ”是 至 关 重 要 的 ,因为 它 的 作用 是 将 信息 传递 给 其 它 特 
定 的 函数 。 除 了 Y,x 和 z 之 外 ,xyplot 在 进行 实际 的 绘图 之 前 还 要 计算 很 
多 参数 值 , 这 些 我 们 不 认识 的 参数 在 被 使 用 的 时 候 将 会 被 传递 给 panel 函 
数 。 你 可 以 选择 在 主 函 数 中 或 者 是 面板 函数 中 将 这 些 参数 所 供给 panel 函 
数 。 你 也 可 以 写 属于 自己 的 面板 函数 ,不 过 你 要 知道 , 格 中 实际 上 已 经 定 
义 了 很 多 易于 使 用 的 函数 。 面 板 函 数 可 以 ,并 且 经 常 互 相 调 用 ,这 主要 依 
靠 其 参数 来 完成 。 我 们 通过 三 个 例子 来 看 一 下 面板 函数 的 用 法 。 


8.6.1 第 一 个 面板 函数 示例 


这 个 例子 同样 使 用 盐 度 数据 集 , 这 一 次 我 们 研究 降雨 和 盐 度 的 潜在 关 
系 。 这 里 没有 降水 的 资料 ,所 以 我 们 假定 每 年 的 降水 和 季节 是 相关 的 ,使 
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用 Month 来 作为 一 个 连续 变量 。 我 们 主要 研究 一 个 单独 站 点 (GROO) 的 数 
据 ,并 以 Year 为 条 件 对 数据 进行 分 类 ,在 xyplot 函数 中 我 们 调用 三 个 面板 
函数 panel. xyplot,panel. grid 和 panel. loess, 并 将 Month 设置 为 1 一 
12,Salinity 设置 为 0 一 30。 
Setwd("C:/RBook") 
Env <- read.table (file ="RIKZENV.txt", header = TRUE) 
library (lattice) 
xyplot (SAL ~ Month | Year, data = Env, 

type = Cc("p"), subset = (Station == "GROO"), 

xlim = c(0, 12), ylim = c(0, 30), pch = 19, 

panel = function (...){ 

Panel.xyplot (...) 

Panel.grid(..., h = -1, v = -1) 

panel.1loess(...)}) 

这 个 代码 的 结果 由 图 8. 5 给 出 ,注意 网 格 线 上 点 的 位 置 ,这 种 现象 是 
因为 面板 函数 中 panel.grid 命令 在 panel.xyplot 后 面 的 原因 。 如 果 你 交 
换 panel. grid 和 panel. xyplot 的 顺序 , 先 绘制 的 将 会 是 网 格 。 面 板 函数 
panel. loess 使 得 图 中 增加 了 一 条 光滑 的 线 , 线 的 光滑 程度 可 以 通过 给 
xyplot 的 主 函数 增加 一 个 属性 span = 0.9( 或 者 介 于 0 和 1 之 间 的 任何 值 ? 
来 控制 (具体 见 Hastie 和 Tibshiranie(1990) 的 著作 中 关于 拟 合 光滑 性 和 跨 
度 的 说 明 ) 。 

我 们 在 函数 panel. grid 中 还 增加 了 将 垂直 和 水 平 网 格 线 与 坐标 轴 进 
行 对 齐 的 选项 。h 与 v 的 正 值 分 别 表示 垂直 与 水 平 网 格 线 的 数目 ,如 果 你 
给 h 与 v 赋 了 负 值 ,R 将 尽量 使 得 网 格 与 轴 坐 标 对 齐 , 可 以 给 h 与 v 赋 不 同 
的 值 来 观察 发 生 了 什么 变化 。 

另外 需要 注意 的 一 点 是 ,如 果 代 码 中 不 包含 panel. xyplot ,数据 对 应 
的 点 将 不 被 绘制 。 由 于 Year 被 认为 是 一 个 连续 的 变量 ,所 以 带 状 的 格式 与 
Year 是 一 个 因子 时 是 不 一 样 的 ,此 时 在 带 状 中 年 份 被 表示 成 了 一 个 彩色 的 
垂直 条 。 这 种 表示 法 没有 多 大 用 处 ,我 们 建议 将 Year 定义 为 一 个 因子 ,这 
样 在 带 状 中 它 就 被 标记 为 具体 的 数值 了 。 

图 中 数据 显示 出 了 清晰 的 季节 性 ,虽然 不 同年 份 的 这 种 季节 性 有 明显 
的 不 同 。 我 们 还 可 以 使 用 以 下 的 代码 来 获得 同样 的 图 像 : 

> xyplot (SAL ~ Month | Year, data = Env, 

subset = (Station == "GROO"), pch = 19, 
xlim = c(0, 12), ylim = c(0, 30), 
type = c("p", "g", "smooth")) 


> 
> 
> 
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图 8.5 历时 16 年 的 Salinity 对 Month 的 散 点 图 ,包括 了 网 格 线 和 光滑 的 


拟 合 线 。 数 据 表现 出 了 清晰 的 季节 性 。 由 于 年 份 没有 被 定义 为 一 
个 因子 ,所 以 它们 在 带 状 中 被 表示 成 了 垂直 线 


注意 参数 type 具有 三 个 值 "p","g" 和 "smooth", 它 的 作用 就 相当 于 xyplot 
函数 执行 了 panel. xyplot ,panel.grid 和 panel. smooth 三 个 面板 函数 。 


8.6.2 第 二 个 面板 函数 示例 


第 二 个 例子 涉及 图 8. 3 所 讲 的 多 面板 克 里 夫 兰 点 图 ,这 一 次 使 用 不 同 
的 颜色 和 大 一 点 的 点 来 表示 潜在 的 异常 值 。 具 体 的 图 像 如 图 8. 6 所 示 , 由 
于 本 书 是 黑白 印刷 ,所 以 两 个 比较 大 的 红 点 被 印 成 了 黑色 。 

图 8.6 可 以 采取 两 种 方法 来 绘制 ,第 一 种 方法 的 代码 与 8.4 节 的 类 似 ， 
只 是 在 主 参数 中 加 入 一 行 代码 cex = MyCex, 此 处 MyCex 是 与 SAL 长 度 相 
同 ,具有 预定 义 值 的 向 量 , 它 将 值 赋 给 cex。 第 二 种 方法 是 在 面板 函数 中 确 
定 cex 的 值 ,以 下 将 阐述 第 二 种 方法 。 

盐 度 数据 的 截止 水 平 被 设置 为 中 位 数 减 去 第 三 四 分 位 数 和 第 一 四 分 
位 数 差 的 三 倍 , 当 盐 度数 据 低 于 这 个 值 时 ,增加 相应 点 的 尺寸 并 对 颜色 做 
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图 8.6 多 面板 克 里 夫 兰 点 图 ,比较 大 的 点 表示 潜在 的 异常 值 


相应 的 改变 。 注 意 这 个 截止 水 平 可 以 根据 个 人 喜好 来 主观 设置 。 我 们 使 
用 如 下 的 代码 : 


VVVYV 


setwd("C:/RBook") 
Env <- read.table (file ="RIKZENV.txt", header = TRUE) 
library (lattice) 
dotplot (factor (Month) ~ SAL | Station, pch = 16, 
subset = (Area=="0S"), data = Env, 
ylab = "Month", xlab = "Salinity", 
panel = function(x, ys, ...) 了 
Q <- quantile(x, c(0.25, 0.5, 0.75) ， 
na.rm = TRUE) 
R <- 0[3] - Qf[1] 
ER Of27 = 3 * (037 = 0117) 
MyCex <- rep(0.4, length(y)) 
> MyCol <- rep(1l, length(y)) 
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MyCex [x < LJ] <- 1.5 

MyCol [x < IJ <- 2 

panel.dotplot (x, y, cex = MyCex, 
col = MyCol, ...)}) 


代码 中 的 主要 参数 有 formula, data,xlab 和 ylab。 面 板 函 数 的 参数 
有 x,y, 和 “...”, 这 表示 在 面板 函数 中 x 包含 某 一 站 点 的 盐 度 数据 ,y 表示 
相应 的 月 份 , 也 就 是 说 ,在 面板 内 部 ,x 和 Y 构 成 了 对 应 于 某 一 站 点 数据 的 
子 集 ,“... ”的 作用 是 传递 一 些 普通 的 设置 ,比如 pch 的 值 。 函 数 quantile 
的 作用 是 确定 第 一 分 位 数 、 第 三 分 位 数 和 中 位 数 。 截 止 水 平 由 工 来 指定 ， 
所 有 盐 度 值 小 于 工 的 x 点 将 使 用 cex = 1.5 和 col = 2 命令 来 绘制 ,其它 的 
点 使 用 命令 cex = 0.4 和 col = 1。 此 代码 还 可 进一步 改 为 识别 较 大 的 盐 度 
值 。 此 时 ,L 和 x<L 就 要 做 相应 的 改变 ,我 们 将 此 作为 读者 的 一 个 练习 。 


8.6.3 第 三 个 面板 函数 示例 ” 


这 一 部 分 我 们 来 讨论 一 些 可 以 图 解 主 成 分 分 析 (principal component 
analysis,PCA) 结 果 的 绘图 工具 。 抛 开 R 代码 , 单 从 多 元 统计 的 使 用 方面 
来 看 ,这 部 分 的 内 容 还 是 比较 难 的 ,所 以 标题 中 打 了 星 号 。 除 了 少 部 分 内 
容 需 要 相应 统计 知识 之 外 ,如 果 你 对 图 8. 7 比较 感 兴趣 ,也 可 以 继续 来 学 
习 这 部 分 内 容 。 

图 8. 7 给 出 了 四 个 双 标 图 9 ,这 里 使 用 的 数据 是 大 约 1000 只 麻 和 党 的 形 
态 参数 (Chris Elphick, 美 国 康涅狄格 大 学 ),Zuur 等 人 (2007) 曾 使 用 这 些 
数据 对 PCA 进行 过 详细 的 解释 。 

我 们 可 以 根据 不 同 的 选择 来 对 PCA 双 标 图 进行 解释 ,对 其 进行 全 面 
的 讨论 并 不 属于 本 文 研究 的 范围 ,具体 可 以 参考 Jolliffe(2002) 或 者 Zuur 
等 人 的 著作 。 在 这 里 ,形态 变量 被 表示 为 一 条 从 原点 到 某 一 点 的 线 ,其 坐 
标 由 前 两 个 轴 的 负载 给 定 ,样本 被 表示 为 一 个 点 ,其 坐标 为 前 两 个 轴 的 坐 
标 值 。 根 据 所 选择 的 比例 变换 ,负载 和 /或 坐标 值 需要 乘 以 相应 的 特征 值 
(Jolliffe,2002) 。 

双 标 图 中 允许 我 们 对 哪些 变量 是 相关 的 ,哪些 样本 是 相似 的 ,样本 是 
否 对 特殊 变量 表现 出 了 较 高 (或 较 低 ) 的 值 进 行 一 些 说 明 。 这 些 说 明 是 基 


@ 双 标 图 是 一 种 可 以 对 多 元 统计 方法 ,比如 主 成 分 分 析 \ 对 应 分 析 、 宛 余 分 析 、 典 型 相关 分 析 等 的 
结果 进行 可 视 化 操作 的 工具 。 在 PCA 双 标 图 中 使 用 特殊 的 法 则 ,我 们 就 能 得 到 原始 变量 之 间 
的 相关 系数 (或 协 方差 ) ,观察 值 之 间 的 相关 关系 ,观察 值 与 变量 之 间 的 相关 关系 等 。 双 标 图 中 
有 很 多 种 度量 ,我 们 依靠 这 些 度量 来 对 双 标 图 进行 解释 。 
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图 8.7 多 面板 主 成 分 分 析 双 标 图 。 每 个 面板 中 的 双 标 图 都 是 通过 对 一 个 数据 集 应 用 
PCA( 使 用 相关 矩阵) 得 到 的 。SESP 和 SSTS 分 别 代表 海边 麻 省 
(Ammodramus maritimus) 和 盐 沼 尖锐 尾 麻 党 (Ammodramus caudacutus)。 从 
图 中 可 以 看 到 ,nalospi,culmen 和 head measurements 是 相互 关联 的 ,这 是 由 于 
它们 都 是 互相 婴 套 的 子 集 的 原因 。 另 一 方面 ,Wing length,mass 和 tarsus 都 是 
鸟 类 结构 大 小 的 指标 ,所 以 它们 也 是 相互 关联 的 (如 图 中 所 示 ) ,但 是 和 前 三 个 
参数 并 不 是 关联 的 


于 线 的 方向 和 点 的 位 置 。 当 线 的 方向 相似 时 ,表示 这 些 变 量 是 正 相 关 的 ， 
当 线 之 间 的 夹 角 有 90 度 时 ,代表 这 些 变 量 有 很 小 的 相关 性 , 当 线 的 方向 
(几乎) 相反 时 ,代表 这 些 变量 是 负 相 关 的 。 点 之 间 以 及 点 与 线 之 间 的 比较 
也 是 有 一 些 准 则 的 ,有 兴趣 的 读者 可 以 参考 前 面 提 及 的 文献 。 

这 里 的 样本 麻雀 可 以 被 分 为 两 种 性 别 和 两 个 物种 (SESP 和 SSTS) ,以 
下 是 绘制 图 8. 7 的 代码 。 
> setwd("C:/RBook") 


> Sparrows <- read.table (file = "Sparrows.txt", 
header = TRUE) 
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P.183 > library (lattice) 
> xyplot (Wingcrd ~ Tarsus | Species * Sex, 

xlab = "Axis 1", ylab = "Axis 2", data = Sparrows, 

xlim = c{-1.1, 1.1), ylim = c(-1.1, 1.1), 

panel = function(subscripts, ..-.){ 
2i <- Sparrows [subscripts, 3:8] 
di <- princomp (zi, cor = TRUE) 
Load <- di$loadings[, 1:2] 
Scor <- di$scores[, 1:2] 
panel.abline(a = 0, b = 0, 1lty 
panel.abline(h = 0, v= 0, 1lty 
for (i in 1:6)7 

llines(c(0, Load[i, 1]), c(0, Load[i, 27]), 
col = 1, lwd = 2) 
ltext (Load [i, 1], Load[i, 2], 
rownames (Load) [i], cex = 0.7)} 
sc.max <- max(abs (Scor)) 
Scor <- Scor / sc.max 
panel.points (Scor[, 1], Scor[, 2], pch = 1, 
Cex = 0.5, col = 1) 


2, col = 1) 
2, col = 1) 


2) 


对 于 xlab,ylab 和 data 这 些 参数 我 们 都 是 很 熟悉 了 。 代 码 式 子 中 的 
第 一 部 分 ,Wingcrd ~ Tarsus 给 出 了 这 个 图 的 构架 ,选取 这 两 个 变量 并 没 
有 什么 特殊 的 原因 ,| 符号 后 的 这 一 部 分 代码 是 比较 新 的 。 以 前 ,我 们 只 使 
用 过 一 个 条 件 变 量 , 但 是 在 这 个 例子 中 却 有 两 个 条 件 变 量 ,Species 和 Sex， 
这 就 导致 图 中 靠 下 部 分 的 两 个 面板 显示 的 是 肉 鸟 的 数据 , 靠 上 部 分 的 两 个 
面板 显示 的 是 雄 鸟 的 数据 。 我 们 还 可 以 交换 一 下 Species 和 Sex 的 位 置 来 
看 看 所 发 生 的 变化 。 注 意 到 这 两 个 变量 在 数据 文件 中 都 被 定义 为 字符 型 ， 
所 以 R 自动 地 将 它们 作为 因子 来 处 理 。 

xlim 和 ylin 的 取 值 需要 一 些 统计 解释 ,一 个 PCA 的 结果 可 以 被 缩放 
到 使 其 数值 信息 (坐标 ) 在 图 中 的 取 值 介 于 一 1 和 1 之 间 。 具 体 细 节 可 以 参 
考 Legendre 和 Legendre(1998) 的 著作 。 

在 构造 图 形 时 ,保证 垂直 方向 与 水 平方 向 的 间距 一 致 也 是 很 重要 的 ， 
因为 这 样 可 以 有 效 地 避免 图 中 各 个 线 之 间 夹 角 的 失真 。 

我 们 现在 来 处 理 一 下 代码 中 比较 难 的 部 分 , 面板 函数 。 向 量 
subscripts 自动 包含 了 面板 函数 中 所 选 数据 的 行 数 ,这 样 我 们 就 可 以 使 用 
Sparrows [subscripts,3:8] 命令 来 提取 某 个 面板 所 需 使 用 的 数据 ，3:8 表 
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示 变 量 Wingcrd,Tarsus,Head,Culmen,Nalospi 和 Wt。 函数 princomp 的 p.184 
作用 是 进行 主 成 分 分 析 , 并 且 提 取 前 两 个 轴 的 负载 与 坐标 。 两 个 panel. 
abline 函数 的 作用 是 绘制 通过 原点 的 轴 。 循 环 ( 见 第 6 章 ) 的 作用 是 绘制 
所 有 变量 的 线 并 添加 标签 ,具体 的 工作 由 函数 11ines 和 ltext 来 完成 。 最 
后 ,我 们 将 所 有 的 坐标 值 调节 到 一 1 和 1 之 间 , 并 使 用 panel. xyplot 函数 
将 其 绘制 成 点 。 

这 里 结果 所 给 出 的 双 标 图 可 以 有 效 地 显示 由 于 性 别 与 种 群 的 差异 不 
同 ,形态 变量 之 间 相 关 性 的 不 同 。 

这 些 代码 可 以 很 容易 地 被 拓展 为 绘制 宛 余 分 析 或 者 典型 对 应 分 析 的 
三 标 图 (具体 可 参考 vegan 包 中 的 rda 函数 和 cca 函数 ) 。 

关于 PCA, 双 标 图 和 三 标 图 更 完整 详细 的 内 容 可 以 参考 Jolliffe 
(2002) ,Legendre 和 Legendre(1998),Zuur 等 人 (2007) 的 著作 ,或 者 其 它 
相关 文献 。 


| 通过 对 温度 的 数据 使 用 面板 函数 来 完成 8. 11 节 的 习题 6。 


8.7 三 维 散 点 图 .表面 图 和 等 高 线 图 


对 于 绘制 三 个 变量 的 图 形 ,有 时 也 称 为 三 变量 图 示 , 一 般 使 用 cloud， 
levelplot,contourplot 和 wire frame 函数 。 本 书 认 为 ,三 维 散 点 图 并 不 
是 经 常 有 用 的 ,但 是 它们 看 起 来 直观 ,给 人 印象 深刻 ,所 以 我 们 在 这 里 对 其 
进行 一 些 简 单 地 讨论 。 下 面 是 一 个 关于 cloud 函数 的 示例 ,使 用 的 数据 是 
荷兰 的 环境 数据 集 , 生 成 了 一 个 三 维 散 点 图 ,用 来 表示 叶绿素 a, 盐 度 和 温 
度 的 关系 。 这 里 的 代码 是 比较 简单 的 ,其 结果 图 如 图 8. 8 所 示 。 

> setwd("C:/RBook") 
> Env <- read.table (file ="RIKZENV.txt", header = TRUE) 
> library (lattice) 
> cloud(CHLFa ~ T * SAL | Station, data = Env, 
Screen = list(z = 105, x = -70), 
ylab = "Sal.", xlab = "T", zlab = "Chl. a", 
ylim = c(26, 33), subset = (Area=="0S"), 
scales = list(arrows = FALSE)) 


@ 在 第 2 章 中 我 们 给 出 了 Wingcrd,Tarsus,Head 和 了 凡 的 解释 。Culmen 表示 从 长 羽毛 的 尖端 开始 
史 顶 部 的 长 度 ,Nalospi 表示 从 咏 顶 部 到 鼻孔 的 距离 。 


P.185 
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图 8.8 关于 叶绿素 a, 盐 度 和 温度 的 三 维 散 点 图 


函数 cloud 中 使 用 了 一 些 我 们 前 面 没有 涉及 的 参数 。 选 项 screen 指出 相 
应 坐标 轴 的 旋转 度数 ,arrows = FALSE 表示 我 们 移 除 了 一 般 三 维 图 形 中 绘 
于 坐标 轴 旁 边 用 来 指示 坐标 正方 向 的 箭头 。 这 样 ,坐标 轴 就 有 了 刻度 ,这 
在 默认 情况 下 是 没有 的 。 这 里 将 > 轴 的 值 限制 在 26 到 33 之 间 。 

函数 levelplot,contourplot 和 wireframe 可 以 用 来 绘制 表面 图 ,这 
方面 通常 涉及 到 使 用 统计 函数 来 预测 规则 网 格 的 值 , 这 些 内 容 并 不 是 我 们 
这 本 书 的 范围 。 关 于 这 些 函 数 的 更 多 信息 具体 可 以 参考 它们 的 帮助 文件 。 


8.8 常见 问题 


在 进行 格 绘图 的 时 候 , 我 们 通常 要 更 改 很 多 设置 ,以 下 是 一 些 常用 的 
更 改 设置 方法 。 
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8.8.1 如 何 改 变 面板 顺序 ? 


默认 情况 下 ,面板 是 从 左下 角 开 始 向 右 绘制 ,再 依次 向 上 。 这 种 顺序 p.186 
可 以 通过 在 高 级 格 命 令 中 设置 as. table = TRUE 来 更 改 , 改 变 后 的 面板 顺序 
是 从 左上 角 开 始 向 右 绘制 ,然后 再 依次 向 下 。 

面板 的 顺序 还 可 以 通过 将 条 件 变量 定义 为 一 个 因子 ,并 且 改 变 factor 
函数 中 的 level 选项 来 进行 更 改 。 图 8. 9 所 示 的 是 夏威夷 三 个 岛 上 三 种 鸟 
数量 的 多 面板 散 点 图 ,这 个 数据 曾经 在 Reed 等 人 (2007) 的 著作 中 被 分 析 
过 。 此 图 有 一 个 问题 ,就 是 鸟 的 种 类 和 岛 是 以 任意 的 顺序 排列 的 ,这 就 使 
得 在 对 照 某 个 岛 上 鸟 的 数量 或 者 某 种 鸟 的 数量 时 比较 困难 。 
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图 8.9 夏威夷 三 个 岛 上 三 种 鸟 数量 的 时 间 序 列 图 


图 8. 10 则 不 然 , 它 的 每 一 行 代表 一 种 鸟 ?, 每 一 列 代 表 一 个 岛 @, 这 就 
使 得 在 对 照 每 种 鸟 的 数量 或 者 不 同 岛 上 鸟 的 数量 时 比较 直观 。 那 么 ,我 们 
怎样 才能 绘制 出 这 样 的 图 形 呢 ? 

以 下 的 代码 实现 了 数据 的 载 人 ,并 且 使 用 as. matrix 和 as. vector 命 
令 将 八 个 序列 连接 成 了 一 个 单独 的 长 向 量 。 因 为 as. vector 命令 不 能 作用 





@ 原文 为 岛 , 似 有 误 。 一 一 译 者 注 
@@ ”原文 为 鸟 , 似 有 误 。 一 一 译 者 注 
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于 数据 框 ,所 以 as. matrix 命令 首先 将 数据 框 转化 为 一 个 矩阵 ,这 样 as. 
vector 命令 就 可 以 将 其 转化 为 一 个 长 向 量 了 。zrep 函数 的 作用 是 生成 一 个 
P.187 单独 的 长 向 量 , 这 个 向 量 中 所 包含 的 是 将 变量 Year 循环 八 次 的 结果 。 
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图 8.10 夏威夷 三 个 岛 上 三 种 鸟 数 量 的 时 间 序列 图 。 注意 岛 的 序列 是 垂直 
排列 的 , 鸟 的 种 类 的 序列 是 水 平 排列 的 


v 


Setwd("C:/RBook") 
Hawaii <- read.table ("waterbirdislandseries.txt", 
header = TRUE) 


v 


library (lattice) 

Birds <- as.vector(as.matrix (Hawaii[, 2:9])) 

Time <- rep (Hawaii$Year, 8) 

MyNames <- c("Stilt_Oahu", "Stilt Maui", 
"Stilt Kauai Niihau","Coot Oahu", 
"Coot Maui", "Coot Kauai Niihau", 
"Moorhen_ Oahu", "Moorhen Kauai") 

> ID <- rep(MyNames, each = 48) 


这 里 rep 函数 还 被 用 来 定义 了 一 个 单独 的 长 向 量 ID, 此 向 量 中 每 个 名 


字 被 重复 了 48 次 ,因为 每 个 时 间 序 列 的 长 度 是 48 年 ( 见 第 2 章 )。 图 8.9 
是 使 用 如 下 我 们 所 熟悉 代码 绘制 的 : 


vvvv 
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> xyplot (Birds ~ TimelID2, ylab = "Bird abundance", 
layout = c{(3, 3), type = "1" col = 1, 
Scales = list(x = list(relation = "same"), 
y = list(relation = "free"), 











tck = -1)) 
tck = -1 是 scales 选项 中 的 列表 参数 ,还 有 很 多 像 这 样 的 scales 参 
数 , 具 体 可 见 xyplot 的 帮助 文件 。' 
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图 8.11 夏威夷 三 个 岛 上 三 种 鸟 数量 的 时 间 序 列 图 。 每 个 面板 都 有 一 个 合适 
的 坐标 范围 


8. 8.3 在 一 个 面板 中 绘制 多 条 线 


当 所 涉及 的 数据 可 以 根据 条 件 变量 的 不 同 水 平 进行 分 组 时 ,我 们 就 可 
以 使 用 高 级 格 函数 groups 来 处 理 它 。 图 8. 12 将 同一 种 鸟 的 所 有 时 间 序列 
陈列 在 一 个 单独 的 面板 中 ,其 具体 的 绘制 过 程 可 由 如 下 代码 来 完成 。 


> Species <- rep(c("Stilt", "Stilt", "Stilt", 
WwCoot", “Coot", "Coot®a 
"Moorhen", "Moorhen"), each = 48) 
> xyplot (Birds ~ Time | Species, 
ylab = "Bird abundance", 
layout Cc(2, 2), type = "1", col = 1, 
Scales = list(x = list(relation = "same"), 


Hl 
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r y = list(relation = "free")), 
groups = ID, lwd = c(1l, 2, 3)) 
代码 中 的 第 一 个 命令 定义 了 一 个 向 量 Species, 用 来 识别 哪些 观察 值 
都 来 源 于 哪些 种 类 的 鸟 。 然 后 使 用 带 有 groups 选项 的 xyplot 函数 来 将 同 
一 种 鸟 的 时 间 序 列 绘制 在 一 个 单独 面板 中 。 选 项 lwd 的 作用 是 使 用 不 同 粗 











细 程 度 的 线 来 表示 三 个 不 同 的 岛 。 P.190 
St 
虽 ] 
1 
§1 
EE 
Fe i 
Coot Moorhen 
| 
i | 
8 8 
gly ?] 














1960 1970 1980 1990 2000 
时 间 


图 8.12 夏威夷 各 个 岛 上 三 种 不 同 鸟 类 数量 的 时 间 序 列 图 。 同 一 种 鸟 的 数 
量 绘制 在 一 个 单独 的 面板 中 


全 对 温度 的 数据 使 用 xyplot 函数 来 绘制 多 条 线 ,完成 8.11 节 的 习题 7。 


8. 8.4 在 循环 中 绘图 


如 果 没 有 学 习 第 6 章 , 这 一 部 分 内 容 可 以 跳 过 去 。 回 忆 8. 2 节 , 其 中 涉 
及 到 了 荷兰 海岸 线 上 一 些 站 点 的 盐 度数 据 序 列 。 在 8. 6. 2 节 中 ,我 们 绘制 
OS 地 区 数据 的 克 里 夫 兰 点 图 (图 8. 6) ,如果 我 们 现在 想 要 绘制 所 有 12 个 
地 区 的 这 种 图 形 ,一 个 办 法 就 是 将 8. 6. 2 节 的 代码 重复 地 输入 12 遍 , 每 一 
遍 改 变 一 下 subset 选项 。 然 而 ,我 们 在 第 6 章 已 经 学 过 了 利用 循环 来 自动 
执行 相似 的 绘图 命令 。 这 里 与 前 面 惟一 的 不 同 就 是 用 dotplot 命令 替换 了 
plot 命令 : 
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> setwd("C:/RBook") 

> Env <- read.table (file ="RIKZENV.txt", header = TRUE) 
> library (lattice) 

> AllAreas <- levels (unique (Env$Area)) 

> for (i in AllAreas ){ 


Env.i <- Env[Env$Area == iv 了 

win.graph( ) 

dotplot (factor (Month)~SaLI | Station, data = Env.i) 
了 

代码 的 前 三 行 实现 了 数据 和 格 包 的 载 人 。 变 量 AllAreas 包含 了 12 个 
地 区 的 名 字 , 循 环 用 来 重复 提取 某 个 地 区 的 数据 并 将 这 个 地 区 内 所 有 站 点 
的 数据 绘制 成 点 图 。 这 里 面 惟一 的 一 个 问题 就 是 上 面 的 这 个 代码 只 能 生 
成 12 个 空 的 图 形 。 

当 你 执行 一 个 高 级 格 函 数 的 时 候 , 将 在 屏幕 上 得 到 一 幅 图 。 这 和 使 用 
普通 的 函数 ,例如 plot 命令 是 类 似 的 。 然 而 , 格 命令 是 不 同 的 ,因为 此 命令 
返回 的 对 象 是 一 个 “ 格 架 (trellis)”, 所 以 ,要 看 到 绘制 的 图 形 ,就 必须 调用 
print 函数 。 有 时 候 , 当 我 们 使 用 一 个 命令 去 绘制 格 图 形 的 时 候 , 可 能 没有 
得 到 任何 东西 ,甚至 是 错误 提示 。 这 很 可 能 是 由 于 我 们 在 循环 或 者 函数 ， 
或 者 source 命令 中 使 用 格 绘图 的 原因 。 要 得 到 图 形 ,必须 将 print 命令 入 
人 到 循环 中 : 


Print (dotplot (factor (Month)~SAL | Station, 
data = Env.i)) 


给 代码 加 上 print 命令 之 后 ,重新 运行 一 遍 , 将 得 到 所 要 的 12 个 图 形 。 
8.8.5 更 新 图 形 


由 于 绘制 一 个 格 图 形 是 很 费时 间 的 ,尤其 是 当 你 对 格 比较 陌生 的 时 
候 , 所 以 update 函数 是 很 有 用 的 。 格 对 象 的 很 多 属性 都 可 以 通过 update 
函数 来 修改 ,因此 我 们 首先 需要 把 图 形 存储 到 一 个 对 象 中 。 这 样 做 的 另 一 
个 好 处 是 当 我 们 使 用 update 命令 来 处 理 图 形 的 时 候 ,我 们 的 原始 图 形 是 不 
会 改变 的 ,所 以 ,命令 
> MyPlot <- xyplot (SAL ~ MyTime | Station, 

type = "1", data = Env) 
> print (MyPlot) 
> update (MyPlot, layout = c(10, 3)) 
将 以 一 个 新 的 排列 方式 来 绘制 图 形 。 可 以 看 到 ,update 命令 将 自动 地 产生 
一 个 新 的 图 形 , 而 原始 的 对 象 Myplot 是 不 会 改变 的 。 
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8.9 还 要 学 什么 ? 


当 你 完成 所 有 的 习题 之 后 ,你 将 更 深刻 地 体会 到 格 图 的 好 处 与 优势 ， 
并 且 你 将 会 毫 不 犹 瑰 的 在 你 的 研究 工作 、 出 版 书籍 和 论文 中 使 用 它们 。 这 P.192 
方面 的 进一步 内 容 可 以 参考 Sarkar(2008) 或 者 Murrell(2006)。 其 它 可 供 
参考 的 资源 还 有 Sarkar(2008) 的 网 页 (http://Imdvr. r-forge. r-project. 
org) 或 者 是 R 的 帮助 邮件 列表 。 


8.10 我们 学 习 了 哪些 R 函数 ? 


表 8.2 列 出 了 本 章 所 介绍 的 R 函数 。 
表 8.2 本 章 所 介绍 的 R 函数 








”函数 功能 示例 
xyplot 绘制 散 点 图 xyplot(y ~ x | g,data = data) 
histogram 直方 图 histogram(~ x | g,data = data) 
bwplot 相当 于 箱 线 图 bwplot(y ~ x | g,data = data) 
dotplot 克 里 夫 兰 点 图 dotplot(y ~ x | g,data = data) 
cloud 三 维 散 点 图 cloud(z ~ x * 了 | gdata = data) 

8.11 习题 


习题 1. 使 用 demo(lattice) 函 数 。 


下 载 格 包 , 通 过 键入 demo(lattice) 来 研究 它 的 一 些 主要 功能 。 然 后 
键入 ? xyplot, 复 制 并 粘贴 一 些 示 例 。 


习题 2. 使 用 xyplot 函数 处 理 温度 数据 。 


绘制 一 个 每 个 站 点 温度 对 时 间 的 多 面板 散 点 图 。 直 接 能 看 出 哪些 东 
西 ? 每 个 区 域 的 图 形 都 一 样 吗 ? 出 现 了 哪些 错误 ,如 何 解 决 ? 最 后 将 每 个 
面板 中 的 点 用 光滑 线 连接 并 加 上 网 格 。 


习题 3. 使 用 bwplot 函数 处 理 温度 数据 。 


绘制 一 个 每 个 区 域 温度 对 月 份 的 盒 形 图 。 将 其 与 盐 度数 据 的 盒 形 图 
进行 比较 ,阐述 它们 之 间 的 不 同 点 。 
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习题 4. 使 用 dotplot 函数 处 理 盐 度数 据 。 


使 用 克 里 夫 兰 点 图 考察 盐 度 数据 中 是 否 有 更 多 的 异常 值 ,以 每 个 站 点 
作为 一 个 面板 ,绘制 所 有 站 点 的 格 图 。 将 其 与 图 8. 3 进行 比较 ,它们 的 y 
轴 范 围 有 什么 不 同 ? 在 xyplot 的 帮助 文件 中 查找 参数 relation, 并 学 习 
使 用 它 。 
习题 5. 使 用 密度 绘图 处 理 盐 度 数据 。 


将 图 8.4 改 为 密度 图 ,这 样 做 是 否 是 原 图 的 一 种 改进 ? 增加 如 下 的 参 
数 :plot. points = "rug"。 比 较 密度 分 布 ,如 果 你 愿意 将 所 有 的 线 放 在 一 个 
单独 的 图 形 中 ,可 以 使 用 参数 groups, 移 除 条 件 参 数 ,增加 groups = 
station( 见 8. 8 节 ) 。 增 加 一 个 每 个 站 点 所 对 应 线 的 说 明 , 这 需要 高 级 编程 
设计 (虽然 有 简单 的 解决 办 法 ) ,我 们 建议 你 参考 我 们 的 网 页 来 寻找 答案 。 


习题 6. 使 用 xyplot 函数 处 理 温度 数据 。 


参考 panel. linejoin 的 帮助 文件 ,生成 一 个 类 似 于 图 8. 2 的 图 形 ,但 
是 此 时 y 轴 表 示 温 度 。 这 和 习题 3 是 类 似 的 ,不 同 的 是 此 时 使 用 panel. 
1linejoin 命令 来 连接 中 位 数 ,而 不 是 均值 。 注 意 小 心 处理 数 据 中 的 空 值 ， 
否则 将 不 会 得 到 结果 。 


习题 7. 使 用 xyplot 函数 处 理 盐 度数 据 。 


绘制 一 个 每 个 区 域 盐 度 ,作为 因 变 量 ,对 时 间 的 格 散 点 图 ,使 用 参数 
groups 来 绘制 不 同 站 点 所 对 应 的 线 。 


习题 8. 使 用 xyplot 函数 处 理 温度 数据 。 


在 习题 2 中 你 曾 绘制 了 每 个 区 域 的 温度 ,作为 因 变 量 , 对 时 间 的 格 散 
点 图 。 对 区 域 “K2” 绘 制 一 个 类 似 的 图 形 , 使 用 小 一 点 的 点 ,并 且 使 用 1/10 
宽度 的 光滑 线 来 连接 相应 的 点 。 在 面板 的 任意 一 侧 增加 一 个 带 状 ,里 面 注 
明 “ 地 点 1”,“ 地 点 2” 等 等 ,并 加 上 工 轴 、y 轴 的 标签 和 图 形 的 标题 。 


习题 9. 使 用 xyplot 函数 处 理 盐 度数 据 。 


以 区 域 作为 条 件 变量 ,绘制 一 个 盐 度 对 时 间 的 多 面板 散 点 图 ,其 中 每 
个 区 域 中 使 用 不 同 的 线 ( 不 是 点 ?来 代表 不 同 的 站 点 。 确 保 面 板 的 陈列 方 
式 为 两 列 , 对 每 个 面板 的 x 轴 使 用 同样 的 范围 ,而 y 轴 使 用 不 同 的 范围 ,将 
2 轴 的 刻度 限制 为 三 到 四 个 ,z 轴 限 制 为 四 个 ,并 将 刻度 放 在 标签 之 间 。 移 
除 图 形 项 部 的 刻度 (和 标签 ) ,使 它们 仅 出 现在 图 形 的 底部 。 减 小 带 状 中 文 
本 的 尺寸 和 带 状 的 高 度 , 增 加 合适 的 网 格 ( 根 据 刻度 ) 和 zz 轴 ,y 轴 的 标签 。 
改变 面板 的 顺序 ,使 其 以 字母 顺序 从 左上 到 右 下 依次 排列 。 
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习题 10. 使 用 xyplot 函数 处 理 ISIT 数据 。 


针对 ISIT 数据 ( 见 第 1 章 ), 绘 制 每 个 站 点 资源 (sources) 对 深度 
(depth) 的 多 面板 散 点 图 。 再 绘制 一 个 多 面板 图 ,其 中 所 有 站 点 的 数据 样本 
是 按照 季节 来 分 类 的 ( 见 3. 7 节 习 题 4) ,每 个 面板 (代表 一 个 季节 ) 中 应 该 
有 多 条 线 。 
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常见 的 及 错误 


在 我 们 的 R 课程 期 间 , 下 面 的 内 容 讲述 了 如 何 避 免 一 些 常见 的 错误 。 
9.1 载 人 数据 的 问题 


9.1.1 源 文件 里 的 错误 


第 2 章 里 我 们 介绍 了 把 数据 载 人 到 R 的 代码 。 第 一 个 主要 的 任务 是 
确保 电子 数据 表 ( 或 ascii 文件 ) 是 准备 充分 的 。 不 要 在 变量 名 称 间 使 用 空 
格 或 者 包含 空白 单元 。 出 错 信息 的 输出 如 第 2 章 所 示 , 这 里 不 再 重 述 。 

如 果 你 的 列 的 名 称 是 表格 Delphinus delphi 中 的 物种 名 称 ,把 它 称 为 
Delphinus. delphi 即 两 个 名 称 中 间 有 一 个 点 ,Delphinus_delphi( 下 划 线 )， 
或 者 更 好 的 , 短 一 些 的 ,比如 Delphi。 


9.1.2 小 数 点 或 者 逗号 分 隔 符 


另外 一 个 潜在 的 缺陷 是 小 数 分 隔 符 的 使 用 :逗号 或 点 。 我 们 经 常 分 组 
讲授 ,让 一 些 参与 者 使 用 点 分 隔 符 计算 ,剩余 的 使 用 逗号 分 隔 符 。 在 第 2 
章 ,我 们 示范 了 使 用 read. table 函数 里 的 dec 选项 设置 分 隔 符 的 类 型 。 载 
人 数据 以 后 ,总 是 使 用 str 函数 证 实 这 些 载 人 数据 是 否 是 你 所 要 的 。 如 果 
你 使 用 错误 的 dec 选项 载 人 数据 ,R 将 会 接受 它 而 不 给 出 错 信息 。 当 你 之 


后 使 用 这 些 数据 时 将 会 出 现 困难 ,例如 ,生成 盒 形 图 或 者 对 连续 变量 取 均 


值 时 ,由 于 使 用 了 错误 的 dec 选项 ,将 会 把 该 变量 错误 地 载 和 为 分 类 变量 。 
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该 问题 可 能 比较 复杂 ,事实 上 错误 并 不 总 是 显而易见 的 ,因为 你 有 时 

可 能 使 用 错误 的 小 数 分 隔 符 而 侥幸 成 功 。 在 接 下 来 的 例子 中 ,前 两 行 命令 
载 人 第 6 章 使 用 的 鲁 鱼 寄生 虫 数据 。 请 注意 我 们 在 read. table 函数 里 使 p.196 
用 dec = "," 选 项 ,尽管 包含 数据 的 ascii 文件 使 用 小 数 点 分 隔 符 。 


> setwd("c:/RBook/") 
> Parasite <- read.table (file = "CodParasite.txt", 
header = TRUE, dec = ",") 


str 函数 显示 载 人 的 数据 : 


> str(Parasite) 
‘data.frame’ : 1254 obs. of 11 variables: 


$Sample : int 12345678910.. 
$Intensity : int 0000000000... 
$Prevalence : int 0000000000... 

$Year : int 1999 1999 1999 1999 1999 ... 
$Depth : int 220 220 220 220 220 220 220 ... 
Sneight : Factor w/ 912 levels "100",..: 159.. 
$Length : int 26 26 27 26 17 20 19 77 67 ... 
$Sex :int 0000000000... 

$sStage nt 人 0000 vos 

$Age tO 0 04000 0 5 


Length 被 正确 地 载 人 为 整数 ,但 是 eight 被 认为 是 分 类 变量 。 这 是 
因为 一 些 重量 的 值 写 成 了 小 数 (例如 ,148. 0), 而 文件 中 的 其 它 变量 都 被 编 
码 为 整数 。 这 意味 着 下 面 的 命令 能 正常 工作 。 
> mean (Parasite$Intensity, na.rm = TRUE) 

[1] 6.182957 
> boxplot (Parasite$Intensity) #Result not shown here 


然而 ,对 Weight 键入 同样 的 代码 会 给 出 错误 信息 : 


> mean (ParasiteS$Weight) 


[1] NA 

Warning message: 

In mean.default (ParasiteSWeight) : argument is not numeric 
or logical: returning NA 


> boxplot (ParasiteS$Weight) 


Error in oldCclass (stats) <- cl: adding class "factor" to 
an invalid object 


如 果 你 使 用 Weight 作为 线性 回归 里 的 一 个 变量 ,你 可 能 会 惊奇 它 会 需 P.197 
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要 大 量 的 回归 参数 ;Weight 作为 分 类 变量 自动 进行 拟 合 。 使 用 Intensity 
求 均值 并 生成 盒 形 图 是 正确 的 只 是 偶然 的 情况 ;如 果 它 包含 小 数值 ,也 会 
出 现 同样 的 错误 信息 。 


9.1.3 目录 名 


当 载 人 数据 的 目录 名 包含 非 英语 字母 符号 ,比如 或 其 它 更 多 的 符号 
时 ,将 会 出 现 问题 。 如 果 你 使 用 的 数据 集 是 同事 使 用 别 的 语言 系统 处 理 
的 ,那么 这 种 语言 问题 是 难以 解决 的 。 奇 怪 的 是 ,问题 不 会 发 生 在 所 有 的 
计算 机 上 。 建 议 保持 目录 结构 尽量 简单 并 避免 使 用 让 你 的 计算 机 看 起 来 
比较 “奇怪 的 ”的 文件 和 目录 名 字符 。 


9.2 绑 定 苦恼 


当 讲 授课 程 时 ,我 们 面临 一 个 困难 的 选择 ,是 否 讲授 使 用 attach 函数 
快速 并 简单 地 访问 一 个 数据 框 里 的 变量 ,或 者 让 参与 者 通过 额外 的 R 代码 
使 用 data 参数 ( 当 可 利用 时 ) ,或 者 讲授 使 用 $ 符号 。 这 是 一 个 稍 有 争议 的 
地 方 ,因为 一 些 权 威 人 士 认为 attach 函数 绝对 不 能 使 用 ,而 另外 一 些 人 的 
书 里 经 常 使 用 该 函数 (例如 , Wood,2006)。 当 我 们 使 用 单个 的 数据 集 时 ， 
我 们 使 用 attach 命令 ,因为 它 更 方便 。 然 而 ,这 里 有 一 些 规则 必须 遵守 , 因 
为 我 们 看 到 许多 R 新 手 经 常 破坏 这 些 规则 。 


9.2.1 输入 相同 的 attach 命令 两 次 


当 在 R 里 运行 一 个 包含 attach 命令 的 程序 代码 时 ,发 现 程序 的 一 个 
错误 ,修改 了 该 错误 ,并 继续 重新 运行 这 一 整 段 代码 时 ,会 出 现 使 用 attach 
函数 最 常 发 生 的 问题 。 这 里 有 一 个 例子 ， 
> setwd{("c:/RBook/") 
> Parasite <- read.table(file = "CodParasite.txt", 

header = TRUE) 


> attach (Parasite) 
> Prrrarassite 


Error: object "Prrrarassite" not found 


因为 我 们 拼 错 了 Parasite,R 给 出 了 一 个 出 错 信 息 。 最 明显 的 反应 是 
更 正 输入 错误 并 重 试 一 次 。 然 而 ,如 果 我 们 在 文本 编辑 器 里 (比如 , Tinn- 
R) 改 正 了 错误 并 重新 发 送 , 或 者 把 所 有 代码 复制 到 R 里 (其 中 包括 attach 
命令 ) ,将 会 出 现 以 下 结果 。 
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> setwd("c:/RBook/") 

> Parasite <- read.table (file = "CodParasite.txt", 
header = TRUE) 

> attach (Parasite) 


The following object(s) are masked from Parasite (posi- 
a Depth Intensity Length Prevalence Sample Sex 
Stage Weight Year 

在 这 一 点 上 参考 attach 函数 的 帮助 文件 是 非常 有 用 的 。 也 就 是 说 该 
函数 把 数据 框 Parasite 添加 到 搜索 路 径 上 ,因此 ,在 数据 框 里 的 变量 可 以 
直接 访问 而 不 用 使 用 $ 符号 。 然 而 ,如 果 我 们 绑 定 数据 框 两 次 , 则 我 们 对 
每 个 变量 生成 了 两 个 可 利用 的 副本 。 如 果 我 们 进行 修改 ,例如 ,修改 
Length, 并 且 在 后 来 的 线性 回归 分 析 里 使 用 Length, 我 们 没有 办 法 确保 使 
用 的 是 正确 的 值 。 

另外 一 种 可 供 选择 的 方法 是 在 重新 运行 attach 前 使 用 detach 函数 
(下 面 的 代码 假设 我 们 还 没有 使 用 attach 函数 ) 


> setwd("c:/RBook/") 

> Parasite <- read.table (file = "CodParasite.txt", 
header = TRUE) 

> attach (Parasite) 


我 们 现在 开始 编程 ,取消 数据 框 Parasite 的 绑 定 , 使 用 : 


> detach (Parasite) 


另 一 个 避免 使 用 的 程序 是 在 for 循环 里 每 次 重复 绑 定 一 个 数据 框 , 因 
为 这 将 生成 一 个 很 大 的 搜索 路 径 最 终 会 使 你 的 电脑 速度 减 慢 。with 函数 
的 帮助 文件 里 也 提供 了 一 个 可 以 替代 attach 函数 的 方法 。 


9.2.2 绑 定 包含 同一 个 变量 名 称 的 两 个 数据 框 


假定 我 们 载 人 鲤鱼 寄生 虫 数 据 和 鲍鱼 数据 并 利用 attach 函数 使 两 个 
数据 框 里 的 变量 可 用 ,使 用 下 面 的 代码 。 


> setwd("c:/RBook/") F199 
> Parasite <- read.table (file = "CodParasite.txt", 
header = TRUE) 
> Squid <- read.table (file = "Squid.txt", header=TRUE) 
> names (Parasite) 
[1] "Sample”" “Intensity" "Prevalence" "Year" 
[5] "Depth" "Weight" "Length" "Sens 
[9] "Stage" "Age" "Area" 
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> names (Squid) 


[1] "Sample" "Year" "Month” "Location” "Sex" 
[6] "GSI"™ 


> attach (Parasite) 
> attach {Squid) 


The following object(s) are masked from Parasite: 
Sample Sex Year 


> boxplot (Intensity ~ Sex) 


Error in model.frame.default (formula=Intensity ~ Sex): 
variable lengths differ (found for ' Sex' ) 


> lm(Intensity ~ Sex) 


Error in model.frame.default (formula = Intensity ~ Sex, 
drop.unused.levels = TRUE): variable lengths differ 
(found for ' Sex’) 

前 三 个 命令 载 人 数据 。 两 个 names 函数 显示 两 个 数据 框 都 包含 变量 
Sex。 我 们 使 用 attach 函数 使 两 个 数据 框 里 的 变量 可 用 。 为 了 看 这 个 效 
果 , 我 们 基于 条 件 Sex 生成 Intensity 数据 的 盒 形 图 。boxplot 函数 给 出 
了 出 错 信息 显示 向 量 Intensity 和 Sex 长 度 不 一 致 。 这 是 因为 R 使 用 
Parasite 数据 框 里 的 Intensity, 但 Sex 来 自 Squid 数据 框 。 想 象 一 下 如 
果 , 偶 然 地 ,这 两 个 变量 具有 相同 的 维 数 将 会 发 生 什么 :我们 将 会 建立 来 自 
巴 伦 支 海 的 鲤鱼 寄生 虫 数 作为 来 自 北 海 的 鲍鱼 性 别 效应 的 模型 ! 


和 .2.3 绑 定 一 个 数据 框 并 演示 数据 


许多 统计 教材 带 一 个 包 , 该 包 里 包含 书本 里 使 用 的 数据 集 ,例如 ， 
Venables 和 Ripley(2002) 的 MASS 包 ,Pinheiro 和 Bates(2000) 的 nlme 包 ， 
Wood(2006) 的 mgcv 包 , 以 及 其 它 的 一 些 包 。 使 用 这 样 的 包 的 经 典 方 法 是 
读者 访问 某 个 函数 的 帮助 文件 ,找到 帮助 文件 底部 的 例子 ,复制 并 运行 这 
些 代码 观察 发 生 了 什么 。 多 数 情况 下 ,帮助 文件 里 的 代码 使 用 data 函数 从 
包 里 载 人 一 个 数据 集 ,或 者 该 代码 使 用 随机 数 发 生 器 生成 一 个 变量 。 我 们 
已 经 看 到 了 包括 attach 和 detach 函数 的 帮助 文件 的 例子 。 当 使 用 这 些 时 
忘记 复制 整个 代码 的 情况 并 不 少见 ;detach 命令 可 能 会 被 遗漏 ,而 只 剩 下 
attach 函数 在 起 作用 。 一 旦 你 理解 了 使 用 示例 函数 ,你 可 以 尝试 你 自己 的 
数据 。 如 果 你 已 经 对 你 的 数据 使 用 了 attach 函数 ,你 可 以 按照 上 一 节 所 述 
的 情况 结束 该 函数 。 

如 果 利用 data 函数 载 人 的 示例 数据 与 你 自己 的 数据 文件 有 一 些 相同 
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的 变量 名 称 ,也 可 能 会 发 生 问 题 。 
一 般 情 况 下 与 attach 函数 有 关 的 信息 应 该 小 心 , 并 使 用 清晰 和 唯一 的 
变量 名 称 。 


9.2.4 当 使 用 attach 函数 后 改变 数据 框 


下 面 的 例子 是 我 们 遇见 的 常规 情形 。 通 常情 况 下 ,我 们 的 课程 参与 者 
拥有 多 本 R 图 书 ,它们 推荐 不 同 的 R 风格 。 例 如 ,一 本 书 可 能 使 用 attach 
函数 ,而 另外 一 本 使 用 更 复杂 的 方法 访问 一 个 数据 框 的 变量 。 有 时 混 消 编 
程 风格 可 能 出 现 问题 ,可 以 从 下 面 的 例子 看 出 。 


> setwd("c:/RBook/") 

Parasite <- read.table (file = "CodParasite.txt", 
header = TRUE) 

Parasite$fSex <- factor (Parasite$Sex) 

Parasite$fSex 

[1] 000000 

[21] 000000 


v 


和 


00000000000000 
00000000002111 
> attach (Parasite) 

> fSex 
[1] 00000000000000000000 
[21] 00000000000000002111 
> Parasite$fArea <- factor(Parasite$Area) 
> fArea 


Error: object "fArea" not found 


在 前 面 三 行 ,数据 被 载 人 并 在 数据 框 Parasite 里 生成 一 个 新 的 分 类 变 
量 fSex。 然 后 我 们 通过 attach 函数 使 数据 框 里 的 所 有 变量 可 以 使 用 ,这 
样 ,我 们 可 以 通过 简单 的 输入 访问 fSex 变量 。 数 值 输出 结果 显示 这 是 成 功 
的 。 如 果 我 们 继续 决定 把 Area 转换 成 数据 框 里 一 个 新 的 分 类 变量 fArea， 
我 们 会 遇 到 一 个 问题 。 我 们 不 能 通过 在 控制 台 输入 它 的 名 称 访问 该 变量 
( 见 出 错 信息 )。 这 是 因为 attach 函数 已 经 执行 ,后 来 再 添加 变量 到 
Parasite 是 不 可 用 的 。 可 能 的 解决 方法 是 : 


1. 取消 数据 框 Parasite 的 绑 定 ,把 farea 添加 到 数据 框 Parasite, 并 重新 
绑 定 。 

2. 在 使 用 attach 函数 前 定义 fArea。 

3. 在 数据 框 外 定义 farea。 
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除了 attach 函数 ,还 有 其 它 很 多 可 以 利用 的 选项 访问 数据 框 里 的 变 
量 。 在 第 2 章 我 们 已 经 讨论 了 使 用 data 参数 和 $ 符号。 在 后 一 种 情形 下 ， 
我 们 可 以 使 用 
> setwd("c:/RBook/") 
> Parasite <- read.tableffile = "CodParasite.txt", 
header = TRUE) 


> MO <- lm(Parasite$Intensity ~ 
Parasite$Length * factor (Parasite$Sex)) 


前 两 行 载 人 鳞 鱼 寄生 虫 数 据 。 后 两 行 应 用 线性 回归 模型 ,这 里 建立 
Intensity 作为 长 度 和 性 别 的 函数 的 模型 。 这 里 我 们 不 讨论 线性 回归 或 者 
它 的 输出 。 知 道 这 个 函数 有 预期 的 效果 就 足够 了 ;输入 summary(M0) 观 察 
输出 结果 。 请 注意 我 们 使 用 Parasite $ 符号 访问 数据 框 Parasite 里 的 变 
量 ( 见 第 2 章 )。 下 面 的 两 行 命令 载 人 nlme 包 并 利用 广义 最 小 二 乘 函 数 
gls(Pinheiro and Bates,2002) 使 用 线性 回归 方法 。 

> library (nlme) 


> M1 <- gls(Parasite$Intensity ~ 
Parasite$Length * factor(Parasite$Sex)) 


Error in evall(expr, envir, enclos): object "Intensity" 
not found 

使 用 lm 和 gls 函数 得 到 的 结果 应 该 是 相同 的 ,然而 R( 无 论 使 用 的 是 
什么 版 本 ) 对 于 后 者 给 出 了 出 错 信息 。 解 决 的 方法 是 在 gls 函数 里 使 用 
data 参数 并 避免 使 用 Parasite $ 符号 。 


9.4 零 的 对 数 


下 面 的 代码 看 起 来 是 正确 的 。 载 人 鳞 鱼 寄生 虫 数 据 并 在 变量 
Intensity 里 对 寄生 虫 数目 使 用 对 数 变换 。 


> setwadf"c:/RBook/I) 

> Parasite <- read,table(file = "CodParasite.txt", 
header = TRUE) 

> Parasite$LIntensity <- log (Parasite$Intensity) 


这 里 没有 出 错 信息 ,但 是 ,如 果 我 们 用 对 数 变换 后 的 值 生成 盒 形 图 , 问 
题 就 会 变 得 明显 ; 见 图 9. 1 里 左边 的 盒 形 图 。 困 难 的 出 现 是 因为 一 些 鱼 有 
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零 个 寄生 虫 ,并 且 零 的 对 数 没有 定义 ,可 以 从 检查 的 值 里 看 出 : 











| i 
Ss | 二 上 - 

| | 

| | 

§ i 

au ! i 

[一 | 

T T 

log(Intensity) log(Intensity+1) 


图 9.1 Intensity 对 数 变换 后 的 盒 形 图 (左边 ) 和 为 了 避免 零 的 对 数 ,强度 加 上 
常数 值 1 后 的 对 数 变换 的 盒 形 图 (右边 ) 


> Parasite5LIntensity 


CEE} -Inf -Inf -Inf Inf -Inf 
[6] -Inf -Inf -Inf -Inf -Inf 
[11] -Inf -Inf -Inf -Inf -Inf 


[1246] 4.0073332 4.3174881 4.4308168 4.4886364 
[1251] 4.6443909 4.8283137 4.8520303 5.5490761 
对 变量 LIntensity 进行 线性 回归 将 出 现 相当 吓人 的 错误 信息 : 
> MO <- lm(LIntensity ~ Length * factor(Sex), 
data = Parasite) 


Error in lm.fit(x, y, offset = offset, singular.ok = P.203 
singular.ok,...): NA/NaN/Inf in foreign function call 
(arg 4) 
解决 的 方法 是 对 Intensity 数据 加 上 一 个 小 的 常数 ,例如 ,1。 请 注意 
在 统计 学 界 关于 增加 一 个 较 小 的 值 仍 有 争议 。 虽然 如 此 ,可 是 在 R 里 计算 
时 你 不 能 使 用 零 的 对 数 。 下 面 的 代码 添加 一 个 常数 并 画 出 图 9. 1 里 右 侧 
显示 的 盒 形 图 。 
> Parasite$LlIntensity <- log(Parasites$Intensity + 1) 


> boxplot (Parasite$LIntensity, Parasite$LlIntensity, 
names = c("log(Intensity)", "log(Intensity+1)")) 


再 次 重申 ,你 不 能 对 零 取 对 数 ! 
9.5 各 种 错误 


本 节 ,我们 给 出 一 些 常见 的 琐碎 的 错误 。 
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9.5.1 1 和 1 之 间 的 区 别 


观察 下 面 的 代码 。 你 能 看 到 两 个 绘图 函数 之 间 的 区 别 吗 ? 第 一 个 是 
正确 的 并 生成 一 个 简单 的 图 形 ;第 二 个 绘图 函数 给 出 了 一 个 出 错 信息 。 


10) 
> plot (x, type = 
> plot (x, type = 


> x <- seqll, 
om) 
ol IJ) 
Error in plot.xy(xy, type, ...) : invalid plot ‘type "1 

本 节 的 标题 可 以 帮助 回答 这 个 问题 ,因为 它 的 字体 可 以 更 清楚 地 显示 
1( 一 ) 和 1(“ell”) 之 间 的 差异 。 在 第 一 个 函数 里 ,type = "1" 的 1 代表 线 , 然 
而 在 第 二 个 绘图 函数 里 ,符号 type = "1" 是 数字 1( 这 是 R 的 语法 错误 ) 。 


如 果 该 文本 在 教室 安装 的 屏幕 里 放映 ,是 很 难 观察 到 1 和 1 的 区 别 的 。 
9.5.2 0 色彩 


假定 你 想 生 成 鳞 鱼 寄生 虫 数据 里 变量 Depth 的 克 里 夫 兰 散 点 图 并 观察 
已 抽样 的 鱼 的 深度 变化 (图 9.2A) 。 所 有 的 鱼 来 自 50 一 300 米 的 深度 。 除 
了 寄生 虫 数量 ,我们 还 有 一 个 变量 ,流行 , 它 表 示 一 个 鱼 有 (1) 或 者 没有 (0) 
寄生 虫 。 把 这 个 信息 添加 到 克 里 夫 兰 点 图 是 有 意义 的 ,例如 ,用 不 同 的 颜 
色 表 示 流 行 。 如 面板 B 所 示 。 我 们 使 用 的 代码 如 下 (假设 数据 用 上 一 节 描 
述 的 方法 已 经 载 人 ) 。 
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50 100 150 200 250 300 
Re a 
EE 
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图 9.2 A: 深 度 的 克 里 夫 兰 点 图 。 横 坐标 表示 深度 , 纵 坐 标 表示 从 文本 文件 载 人 
的 观察 值 的 顺序 。B: 与 面板 A 相同 ,点 的 颜色 是 基于 Prevalence 的 值 
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> par(mfrow = c(2, 1), mar = c(3, 3, 2, 1)) 

> dotchart (Parasite$Depth) 

> dotchart (Parasite$Depth, col = Parasite$Prevalence) 
我 们 过 到 一 个 问题 ,一 些 点 消失 了 。 这 是 因为 我 们 在 col 选项 里 使 用 

的 变量 值 等 于 零 , 它 表示 没有 颜色 。 使 用 col = Parasite $ Prevalence + 1 

是 一 个 较 好 的 选择 ,或 者 使 用 一 个 合适 的 色彩 定义 一 个 新 的 变量 。 


9.6 错误 地 保存 R 空间 


最 后 ,但 并 非 最 不 重要 的 ,我 们 处 理由 于 错误 地 保存 空间 引起 的 问题 。 
假设 你 已 经 载 人 了 第 7 章 使 用 的 猫头鹰 数据 : 


> setwd("C:/RBook/") 
> Owls <- read.table(file = "Owls.txt", header= TRUE) 


为 了 观察 工作 空间 里 有 哪些 变量 可 以 使 用 ,输入 : P.205 


> 了 全 
[1] "Owls" 

ls 命令 给 出 所 有 对 象 的 列表 (在 一 个 长 期 的 工作 时 间 后 ,你 可 能 有 很 
多 对 象 ) 。 

现在 你 决定 退出 R 并 点 击 文件 -> 退出 (File -> Exit) 。 出 现 了 图 9. 3 所 
示 的 窗口 。 我 们 一 贯 建议 选择 “ 否 (No)”, 不 保存 , 当 你 希望 再 次 执行 该 工 
作 时 从 文本 编辑 器 (例如 ,Tinn-R) 重 新 运行 该 脚本 代码 。 保 存 工作 空间 的 
唯一 的 原因 是 运行 计算 过 于 费时 。 保 存 大 量 的 工作 空间 很 容易 的 ,但 它们 
的 内 容 则 是 完全 未 知 。 与 此 相反 ,脚本 代码 是 可 以 记录 的 。 


Question 本 9 sy 


ae ee 2 je 


@ Save workspace image? 
Canc , 














图 9.3 在 关闭 R 前 询问 用 户 是 否 保存 工作 空间 的 窗口 


然而 ,假设 你 点 击 “ 是 ”。 这 种 处 理 是 容易 的 。 目 录 C:/RBook 将 包含 
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一 个 扩展 名 为 . RData 的 文件 。 打 开 Windows 资源 管理 器 ,浏览 该 工作 目 
录 ( 这 种 情况 下 是 C:/RBook) 并 删除 带 有 大 的 蓝 色 R 图 标的 文件 。 
事情 可 能 会 更 有 问题 ,如 果 没 有 使 用 setwd 命令 ,你 输入 


> Owls <- reaa.tableffile = "C:/RBook/Owls.txt", 
header = TRUE) 


现在 如 果 你 退出 ,保存 工作 空间 , 当 R 再 次 重启 时 将 会 出 现下 列 文本 。 


R version 2.7.2 (2008-08-25) 
Copyright (C) 2008 The R Foundation for Statistical 
Computing 


ISBN 3-900051-07-0 
R is free software and comes with ABSOLUTELY NO WARRANTY. 


You are welcome to redistribute it under certain condi- 
tions. 


Type “license()’ or "licence()’ for distribution 
details. 


Natural language support but running in an English 
locale 
R is a collaborative project with many contributors. 
Type ’ contributors()’ for more information and 


‘citation()’ on how to cite R or R packages in publica- 
tions. 

Type ‘demo()’ for some demos, ‘help()’ for on-line help, 
or 

‘help.start()’ for an HTML browser interface to help. 
Type 'q()’ to quit R. 


[Previously saved workspace restored] 
» 


最 后 一 行 破坏 了 乐趣 。R 再 次 载 人 了 猫头鹰 数据 。 为 了 进行 证 实 ,和 输 
人 : 
> Owls 

猫头鹰 数据 将 会 显示 。R 不 但 保存 了 猫头鹰 数据 ,而 且 也 保存 了 前 面 
章节 生成 的 所 有 其 它 对 象 。 恢 复 一 个 保存 的 工作 空间 会 遇 到 与 attach 相 
同 的 困难 (你 没有 意识 到 使 用 的 变量 和 数据 框 已 经 被 载 人 )。 

为 了 解决 这 个 问题 ,一 个 最 简单 的 选择 是 清除 工作 空间 (也 可 见 第 1 
章 ): 
> rm(list = 1s(all = TRUE)) 
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现在 退出 R 并 保存 ( 空 的 ) 工 作 空间 。 另 一 种 方法 是 找到 . RData 文件 
并 手动 从 Windows 资源 管理 器 里 删除 它 。 在 我 们 的 电脑 里 (使 用 
VISTA) , 它 位 于 目录 :C:/Users/UserName 里 。 网 络 计算 机 和 XP 系统 的 
计算 机 保存 用 户 信息 时 可 能 会 有 不 同 的 设置 。 最 好 的 简单 做 法 是 避免 保 
存 工作 空间 。 
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